组织相容性抗原决定簇基因高通量测序的hla基因分型方法

文档序号:423322阅读:452来源:国知局
专利名称:组织相容性抗原决定簇基因高通量测序的hla基因分型方法
技术领域
本发明涉及一种基因测序及分型方法,尤其涉及一种组织相容性抗原决定簇基因的高通量测序及HLA基因分型方法。
背景技术
HLA所在位点超过200个基因,在人类免疫系统中有着关键的作用。HLA具有高度的多态性,包括约7000个已知的等位基因(http://www.eb1.ac.uk/imgt/hla/)。在骨髓和其它器官移植中,供者和受者之间HLA基因型的匹配程度越高,排斥反应的发生率就越低,移植成功率和移植器官长期存活率就越高。反之,就越容易发生排斥反应。Stephanie J.Lee等人在2007年的一项大规模研究中,分析了美国国家骨髓库(National Marrow DonorsProgram)记录的自1988年到2003年的3857起移植数据,发现8个HLA相关等位基因完全匹配的患者存活率最高。这8个等位基因分别为HLA-A、-B、-C、-DRB1、-DQB1、-DQA1、-DPBI和-DPA1,其中HLA-A、-B、-C或-DRBl中任意一个的不匹配,都会带来较高的致死率:1年内的存活率从8个完全匹配时的52%降到43%。而两个或更多位点的不匹配,会显著加剧这种风险(Lee, Klein et al.2007)。与此同时,移植的时间,同样对患者移植后的效果很重要。Stephanie J.Lee等人还发现,只有6个HLA基因位点匹配的病人,如果在患病的早期进行移植,其效果仍然比8个基因完全匹配但却是在疾病发展到高级阶段时移植的好。这是因为,在移植时疾病的状态,是唯一能够被医生掌握的因素,尽早的移植恐怕是能够影响患者存活率的最重要步骤(Lee,Klein et al.2007)。因此,准确而又快速的HLA分型技术,对需要进行骨髓或器官移植的病人而言,就显得尤为关键。HLA基因型除了在临床上被大量地用于器官移植中的供体和受体配型外,也与许多特定的疾病如自身免疫疾病、传染疾病以及一些癌症等存在密切的关联。例如,HLA_DRB1*04:01 被证实与风湿性关节炎(Angelini, Morozzi et al.1992)、I 型糖尿病(Windsor, Puschendorf et al.2005),多发性硬化症(Laroni, Calabrese et al.2006)等密切相关。而HLA-B*57:01则能够保护人类不易受HIV的感染(Fellay,Shianna et al.2007)。此外,尽管存在许多基因影响乳腺癌的易感性,而且这些基因都与HLA不相关,但在白种人中,仍然发现HLA II型基因HLA-DQB*03032和HLA_DRB1*11可能对人类乳腺癌具有保护性的作用(Chaudhuri, Cariappa et al.2000)。因此,HLA分型技术还能够用来预测人类对某些特定疾病的抗性或易感性。药物不良反应(ADR)是指患者在使用正常剂量的某种药物用于预防、诊断、治疗疾病或调节生理机能时出现的有害的和与用药目的无关的作用。其中许多都属于T细胞对药物免疫反应所引起的药物过敏综合征,而且其中一些如Stevens-Johnson综合征(Stevens-Johnson’ s syndrome, SJS)和中 毒性表皮坏死松解症(toxic epidermalnecrolysis, TEN)甚至会带来严重的后果。研究发现,许多T细胞调控的药物不良反应与特定的HLA等位基因型有关,例如,Allopurinol (—种用于治疗痛风和高尿酸血症的药物)与某些汉族人中携带的HLA-B*58:02基因,Carbamazepine (一种治疗癫痫症的抗痉挛药)与某些汉族、印度和泰国人中携带HLA-B*15:02基因(Thorsby 2011; Bharadwaj, Illinget al.2012)。携带某些特定HLA基因标记的病人对某种药物发生ADR的风险,相比正常人,能高出500-1000倍,而这远远高出了已知的HLA与疾病之间的关系(Thorsby 2011)。在个性化医疗即将到来的时代,基于高通量高分辨率的HLA分型技术,预先检测特定的HLA等位基因能够帮助临床医生判断患者服用一些药物所发生不良反应的风险。总之,研究HLA分型的高通量方法,不仅在临床上具有十分重要的意义,而且在疾病的预防和控制方面,也能发挥积极的效果。所以组织相容性抗原决定簇基因高通量测序检测技术一是可以应用在与手术移植有关(如器官骨髓移植等)的临床上;二是与个性化医疗中有关的疾病预防与控制或药物不良反应评估上;三则是器官(或骨髓)捐献和移植库对众多捐献者的常规HLA分型检测等等。HLA分型技术的发展经历了两个阶段:血清学分型阶段和DNA分型阶段。近来,随着PCR技术的成熟,血清学分型已基本被放弃,HLA分型全面进入DNA分型阶段。与血清学相比较,DNA分型分辨率高,错误率少(Dunn 2011)。目前已经建立起来的HLA分型技术包括以下三种:PCR-SSP (PCR with sequence-specific primers,序列特异引物PCR), PCR-SSOP (PCR with sequence-specific oligonucleotide probes, PCR 寡核苷酸探针)和 PCR-SBT (PCR with genomic DNA sequencing-based typing, PCR 产物直接测序分型)(Lind, Ferriola et al.2010; Dunn 2011)。由于HLA等位基因数目的不断增加,PCR-SSP和PCR-SSOP方法越来越难以适应新的标准,许多实验室已经停止使用这些技术,PCR-SBT方法逐渐成为人们可接受的标准方法(Dunn 2011)。理论上,由于采用了Sanger测序,PCR-SBT是最直观、最准确的方法,同时也是唯一用来定义新的等位基因的方法(Gabriel, Danzer et al.2009; Lind, Ferriola et al.2010),因此对每一个 HLA分型实验室而言,该方法显得至关重要。PCR-SBT是一种简单快速的序列分型方法,首先利用PCR扩增获得DNA片段,再基于Sanger测序得到扩增片段的DNA序列。据此建立的HLA基因分型技术不但能得到高分辨率结果,还可显示HLA基因间高度可变区的全部核苷酸序列,但有时也会产生模棱两可的结果(Gabriel, Danzer et al.2009; Lind, Ferriolaet al.2010; Dunn 2011)。其主要原因有:(I)测序区域内(通常,对HLA I型基因而言为外显子2和3,II型为外显子2)的等位基因序列相同,而等位基因多态性位点位于分析区以外;(2)在Sanger测序反应中,核苷酸同时掺入到所有的DNA模板中,2个等位基因被一起扩增测序,导致PCR-SBT分型技术测出顺/反模棱两可的结果,有时不同等位基因间的组合可得到相同的杂合子序列,无法得到确定唯一的HLA基因型,如A*01:01:01:01+ 02:01:01:01 = A*01:14 + 92:21 = A*36:04 + 02:36 (Adams, Barracchini et al.2004; Listgarten, Brumme et al.2008; Lind, Ferriola et al.2010)。与之相应的是,绝大多数的HLA I/II型等位基因序列多态性,通常是源于基因转化(gene conversion)、重组(recombination)和外显子改组(exon shuffling)事件(Adams, Barracchini etal.2004) ο因此,在同一个外显子中,特定位置上可能存在多种序列motif,这些motif可以被不同亚型或不同座位的等位基因同时使用(Adams, Barracchini et al.2004),即每个等位基因的特异性其实是由这些motif的唯一组合而形成。等位基因越多,产生模棱两可结果的概率越大。解决PCR-SBT法产生模棱两可配型的结果,一方面是可以基于 group-specific 的 PCR 方法(PCR-GSSP) (Dunn 2011; Lebedeva, Mastromarino etal.2011)或者 haplotypes-specific extraction (Dapprich, Ferriola et al.2008;Gabriel, Danzer et al.2009),另一方面则是基于群体统计学计算的方法,对模棱两可性的结果依据不同地区或人种对某些特定HLA等位基因型的连锁不平衡,推断出最有可能的等位基因型(Listgarten, Brumme et al.2008),该方法尤其对数据库中的一些历史数据有效。但无论如何,PCR-SBT分型法都显得繁杂且单位成本较高,同时花费时间较长(Lank, Wiseman et al.2010; Erlich, Jia et al.2011)。随着技术的发展,人们逐渐认识到焦磷酸测序(pyrosequencing)或许可以解决这个问题(Ramon, Braden et al.2003;Ringquist, Styche et al.2007; Lu, Boehm et al.2009)。不同于 Sanger 测序,焦憐酸测序能够对核苷酸加入顺序进行程序化,可以设计出不同的核苷酸加入顺序进行反应,即对于得到模棱两可分型结果的HLA等位基因模板,可以使用异相核苷酸掺入方式,使核苷酸只掺入其中一个等位基因,从而使这个等位基因的测序反应早于另一个等位基因,从原理上解决Sanger法带来的等位基因顺/反模糊。HLA分型的高通量研究,目前主要基于Roche 454 GS FLX测序仪进行。由454GS FLX提供的高通量测序技术可一次性对多个样本直接鉴别外显子水平的HLA多态性,达到单次的高分辨率基因型测定,消除了为测定某个复杂的等位基因型而多次对某一片段进行的重复测定,相比于PCR-SBT方法大大简化了实验流程的复杂性。同时454 HLA实验的结果还允许第三方基因型分型软件如Conexio Genomics公司的GAssign-ATF 454来进行快速的实验与数据分析,从而得到高分辨的检测结果(Bentley, Higuchi et al.2009;Gabriel, Danzer et al.2009; Lind, Ferriola et al.2010; Holcomb, Hoglund etal.2011)。此外,由于454测序结果数据的高通量性(可同时产生数百万条reads序列,读长> 250bp),也使得发现个体样本中罕见的等位基因成为可能(Bentley, Higuchi etal.2009; Holcomb, Hoglund et al.2011)。然而,尽管GAssign-ATF 454软件能够整合所有样本的位点和序列并将其与IGMTHLA序列数据库进行比对自动输 出HLA的等位基因型,但该软件是一款商业软件,而且其用户界面显得较为复杂,限制了其广泛应用。另外,从目前的文献信息来看,该软件只见于与Roche/454测序结果有关的分析中,对于其他的测序平台如illumina公司的Solexa,尚未见到相关报道。因此,开发更通用的软件并使之能够适用不同的测序平台,显得尤为必要。通常,确定HLA的等位基因型可以直接基于序列相似性进行同源性搜索比对,如 BLAST (Wiseman, Karl et al.2009; Kita, Ando et al.2011; Lee, Hur et al.2011)或BLAT (Lank, Wiseman et al.2010),将454测序得到的reads片段或拼接后的contigs片段比对到IGMT/HLA序列数据库。该数据库是人类主要组织相容性复合物系统序列的一个专题数据库,包括了 WHO HLA系统因子命名委员会正式认可并命名的全部HLA序列(Robinson, Mistryetal.2011)。因此,对于已知的大多数HLA等位基因类型,该方法能够进行准确的鉴定。但基于同源比对的方法仍然存在一个与PCR-SBT分型方法类似的局限性,即若等位基因多态性位点位于测序区域外,仍然可能出现模棱两可的结果。当然,若是针对HLA基因的全部区域进行完整测序,同源性比对方法如BLAST能够减少这种模糊性,但对于常规HLA分型,是否需要对HLA的完整基因组,包含内含子以及外显子进行测序,仍然存在争议,毕竟至少就内含子而言,大多处于内含子内的位点多态性事实上并不影响等位基因的表达,对等位基因的分型并没有实际的意义,但同时的确也存在一些内含子突变又导致了 HLA 等位基因无法正常表达(Eisner, Bernard et al.2002; Lind, Ferriolaet al.2010)。另一个值得关注的问题是,现时的IGMT/HLA序列参考数据库并不是足够完善的(Robinson, Mistry et al.2011),将会增加错误比对的概率(Lind, Ferriola etal.2010) ο隶属于MIT和Harvard的Broad Institute 基于GATKXGenome Analysis Toolkit)开发出了一款通用程序HLACaller (Erlich, Jia et al.2011),可针对HLA的每一个基因座位,基于三个方面的信息来计算染色体上HLA等位基因对的后验概率:(I)每一个碱基位置上的基因型;(2)临近变异位点的相位信息;(3)群体特异的等位基因频率。基本的思路:(A)基于GATK计算HLA基因座位上观察到的每一个碱基基因型的概率,并将所有位置的概率相乘;(B)基于二项分布,计算特定HLA等位基因对中每一对临近多态位点的相位方向与对应位点的序列数据一致的概率。该概率是基于与HLA等位基因对的临近多态位点相位相匹配的reads数目以及总的reads数目,应用二项分布计算出来的,其中估计的测序错误率(estimated sequencing error rate,Z7err)被假定为1%,同(A),每一对临近多态位点的概率相乘;(C)将(A)、(B)中的概率与群体等位基因频率相乘,便得到了针对每一对等位基因对的后验概率,其中概率值最大的作为HLACaller算法的最后结果。该算法的优点是,充分整合了群体等位基因频率信息。Lank等人(Lank, Wisemanet al.2010)分析认为,对HLA I型抗原基因A、B、C,基于外显子2、3、4理论上只能高分辨率地区分85%的等位基因,剩下的15%则只能在中/低度分辨率上进行分型。因此,HLACaller在整合了群体的等位基因频率信息后,即便只针对外显子2和3进行测序分析,也仍然能够高分辨率对HLA等位基因分型,且分型的准确度达到了 96%以上。对于那些少数无法进行高精度分型的HLA基因型样本,HLA仍然能够给出一批潜在的具有较高几率的结果。该问题可以在额外测序其他的外显子后得到有效解决。但HLACaller算法仍然存在许多局限性,如群体等位基因频率信息本身存在的偏好性以及准确性。前者可能会导致HLAcaller的分型结果偏好某些特定的HLA等位基因,后者则直接带来错误的判断结果。同时,由于针对HLA II型抗原基因设计特定的引物存在挑战,该算法还未在HLA II型上使用,甚至由于未知的原因,该算法已经被Broad Institute停止更新维护。事实上,HLACaller仍然是基于454测序进行分型预测的。尽管缘于454测序技术的读长几乎能覆盖整个HLA基因的外显子区域,但454技术仍有一个明显的缺陷,即无法准确测量同聚物(homopoIymer )的长度,造成测序结果不准确,也正是因为这个原因,454测序常常会出现与核苷酸的插入或缺失有关的错误。相比之下,高通量测序的其他代表平台如 illumina 公司的 Solexa 测序技术或 Life Technologies 公司的 1n torrent PGM 测序技术要好上很多。与此同时,Solexa或1n torrent PGM测序技术在测序的通量上远远高于454技术,其相对测序成本也低于454技术。因此,发展基于illumina Solexa或LifeTechnologies 1n torrent PGM测序的HLA分型技术,就显得十分有必要。

发明内容
鉴于上述现有技术存在的缺陷,本发明的目的是提出一种组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,解决HLA基因分型效率及成本问题。
本发明上述目的的一种技术实现方案为:组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,针对已知并已被收录的HLA等位基因型,其特征在于包括步骤:1、采用高通量测序平台扩增测序得到reads序列片段;
I1、以最新的IMGT/HLA数据库中包含的HLA等位基因为参考序列,将步骤I测序得到的reads序列片段与参考序列采用核酸序列比对工具进行比对,得到比对结果;
II1、对比对结果进行错配、最佳匹配、长度和/或尾端匹配的多重筛选、过滤优化;
IV、定义centralreads、所有reads的最小测序覆盖深度MCOR、central reads的最小测序覆盖深度MCCR,计算经步骤III过滤后每条参考序列的MCOR和MCCR值,并舍弃MCOR小于20且MCCR小于10的参考序列,对余下的参考序列,列出同一 HLA基因座位所有的可能组合,包括单一序列的纯合子及两两组合的杂合子,计算每种组合的不同reads的数目,reads数目最多的组合判定为相应的HLA等位基因型,其中central reads指的是在某个给定位点,参与比对的reads在给定位点左边的序列长度与右边的长度之比在0.5^2之间。进一步地,其所分析对象包括但不局限于人类。进一步地,所述高通量测序平台至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。进一步地,所述核酸序列比对工具至少为BLASTN。进一步地,步骤III中所述错配筛选是指去除比对中含有错配或者空位的比对结果;所述最佳匹配筛选是指只保留比对分值高于一定阀值的比对结果;所述长度筛选包括一剔除外显子长度超过50个碱基而比对长度小于50个比对碱基的比对结果,二剔除外显子长度小于50个碱基但比对长度却小于外显子长度的所有结果;所述尾端匹配筛选是指剔除参考序列只能比对到paired-end read中的一端,与此同时又存在其它参考序列能匹配到其两端的比对结果。进一步地,步骤IV中对于纯合子的参考序列,其计算所得reads数目需乘以一经验值1.05。本发明上述目的的另一种技术完善方案为:组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,针对新的未被收录的HLA等位基因型,其特征在于包括步骤:1、采用高通量测序平台扩增测序得到reads序列片段,在测序reads长度不能覆盖整个HLA等位基因外显子区域的情况下采用从头拼接方法得到重叠群序列,并保留测序reads长度足以覆盖整个外显子区域的reads序列;
I1、以最新的IMGT/HLA数据库中包含的HLA等位基因为参考序列,将步骤I得到的reads序列或重叠群序列与参考序列采用核酸序列比对工具进行比对,得到比对结果;
II1、根据序列比对分值最大判定最相近的HLA等位基因型,并确定其差异,发现新的等位基因型。进一步地,其所分析对象包括但不局限于人类。进一步地,所述高通量测序平台至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。进一步地,所述核酸序列比对工具至少为BLASTN。相比传统的PCR-SBT方法测序方法, 高通量测序技术无论在经济成本还是时间成本上,均具有显著的优势。高通量测序技术只需通过一次实验就能够读取数千份样本的HLA序列数据,并一次性达到HLA分型的高分辨率,同时还可发现新的等位基因。在检测通量、数据质量、成本控制等方面都有质的飞跃,真正做到了 “低分价格,高分数据”,能避免多次配型给患者造成的额外经济负担,同时快捷的分型方法,也能减少查找与患者HLA匹配的供者的周期,为治疗争取了宝贵的时间。


图1是在已有文献中验证过的测序所需HLA引物示意图。
具体实施例方式本技术方案主要分为两个部分,分别针对已知的已被收录的和新的还未被收录的HLA等位基因型,并使之能够适用于各种高通量测序平台。I)对于已被收录的HLA等位基因型:
标准的判断基因型的方法,是将扩增测序所得到的序列片段比对到参考数据库,如IGMT/HLA (http://www.eb1.ac.uk/imgt/hla/),如果序列片段能够与参考数据库中的特定参考序列完美匹配,那就能确定所测样本的等位基因型与参考序列基因型一致。而进行序列比对,首选来自NCBI的BLASTN(http://blast, ncb1.nlm.nih.gov/)核酸序列比对工具。本HLA基因分型的方法,正是从BLASTN的比对开始的。在2012-04-12发布的3.8.0版本中,MGT/HLA数据库共包含7527个HLA等位基因,其中I型A、B、C座位,分别包含1884、2490、1384个等位基因,II型DRB1、DQB1则分别包含1094、165个等位基因。其中,在这些等位基因序列中,只有少部分是含有基因组序列的,更多的只是等位基因的外显子核苷酸序列,这与扩增的产物片段主要是外显子区域是一致的。这些等位基因序列,构成了此次BLASTN比对的参考数据库,BLASTN比对的过程中相应参数均采用默认参数。将高通量测序获 得的reads序列基于BLASTN比对到参考数据库MGT/HLA后,比对结果按照如下的顺序进行处理:
i)错配筛选:去除比对中含有错配(mismatch)或者空位的结果(gaps);
ii)最佳匹配筛选:即只有比对分值(bitscore)最大的才会被保留;
iii)长度筛选:一是剔除外显子长度超过50个碱基而比对长度小于50个碱基的结果,二是剔除外显子长度小于50个碱基但比对长度却小于外显子长度的所有结果;以及
iv)paired-end筛选(如果是paired-end测序):剔除那些参考序列只能比对到paired-end read中的一端,与此同时又存在其他参考序列能匹配到其两端的比对结果。需要注意的是,当测序reads比对到一条正确的参考序列上时,这些reads会形成一个覆盖整个测序区域的、连续的瓦片式(continuous tiling)形状;而如果比对上的不是正确的参考序列,则会在测序区域的某些位置,变成一种错开的瓦片式(staggeredtiling)形状。为定量化这种比对的差异,首先定义“central reads”:在某个给定的位点,参与比对的reads,在位点左边的序列长度与右边的长度之比在0.5^2之间,这样的reads被称作“central reads”。在进行HLA基因分型之前,还需假设,比对到正确的参考序列的reads数目,应该比非正确参考序列的reads多。如此,就可采取穷举法,列出所有的参考序列组合,并针对每一对组合数出参与比对的reads数目。当然,由于参考序列众多,其组合数目也相当的大,这种方法并不可取。所以,采取启发式的策略,首先排除那些明显不可能的参考序列。这里,再次定义两个概念:MCOR(minimum coverage of overall reads,所有 reads 的最小测序覆盖深度)和 MCCR (minimum coverage of central reads, centralreads的最小测序覆盖深度)。其中:MC0R是指在针对参考序列的每个位点中,比对过滤后覆盖到这些位点的最小reads数目,而MCCR则是指在针对参考序列的每个位点中(忽略掉参考序列中内含子外显子边界处的30个碱基位点),比对过滤后覆盖到这些位点的最小central reads数目。对每条参考序列,分别计算MCOR和MCCR值,舍弃MCOR小于20并且MCCR小于10的参考序列。对于剩下的参考序列,列出同一 HLA基因座位所有的可能组合(纯合子为单一序列,杂合子为两两组合),并计算出每种组合的不同reads的数目。考虑到纯合子等位基因的组合只有一条参考序列,reads数目会乘以一个经验值1.05。reads数目最对的参考序列组合,被认为是相应的HLA等位基因型。2)对于新的HLA等位基因型:
显然,上述基于参考序列比对的方法,只能对HLA等位基因型已知的样本进行分析,新的未被数据库收录的等位基因型,则显得无能为力。因此,为了能够对新的等位基因型进行分析,需要设计额外的方法。类似于Velvet软件对短小reads进行从头拼接的原理,开发拼接软件,以拼接那些未能全部比对或未能比对到参考序列的reads。简单说来,将这些reads,以Ibp为位移单位,分成长度为40个碱基的片段。然后构建一个有方向及权重的图,其中每个40bp的片段作为节点,并将来自同一 read的连续的两个片段连接起来,边的权重设定为含有两个节点片段的reads数目。在图上,这些权重和最大的一条路径,就是拼接得到的contig。将contig比对到参考序列上,就能得到与contig最接近的参考序列并确定其差异。基于该方法, 便能发现新的等位基因型。以上技术方案由于BLASTN序列比对以及测序reads从头拼接的通用性,故而能够方便地扩展到几乎所有的新一代高通量测序平台。同时,由于额外考虑了针对新的未被收录的HLA等位基因型的处理办法,使得上述方案不再简单地受制于现有HLA等位基因数据库自身不完善的限制,再次极大地提高了该方案的使用范围。以下便结合实施例附图,对本发明的具体实施方式
作进一步的详述,以使本发明技术方案更易于理解、掌握。1、引物设计
454测序所需HLA引物,是直接采用的Bentley等人在文献中验证过的可用引物(G.Bentley et al.2009),如附图1所示。这些引物在设计时,都尽量保证能够扩增出所有的等位基因型,同时又保持其基因座位的特异性。此次实验,暂时只对HLA I型A、B、C的外显子2、3,以及HLA II型DRB1、DQB1外显子2进行扩增。2、样本
此次实验一共有来自瑞金医院的10个正常人的血液检测样本,其HLA A、B、C、DRB1、DQBl等5个位点的等位基因型已经由上海市血液检测中心基于标准PCR-SBT方法得到。所有10个样本都被送往454 Life Sciences GS FLX进行测序。3、HLA基因高通量测序
10个样本的8个外显子,分别进行PCR扩增。利用Agencourt AMPure system(Agencourt Bioscience Corporation, Beverly, MA),短的非特异以及引物二聚体扩增产物被清除。随后,在一个微板分光突光计上基于Quant-1T PicoGreen assay (InvitrogenCorporation)对这些被纯化的扩增子进行定量。稀释到合适的浓度后,按照454 GS FLX测序方法的要求,进行 Emulsion PCR、bead recovery 和 pyrosequencing。最终,得到 10 个样本8个外显子的454高通量测序数据,其测序深度从2(Γ500不等。4、HLA基因分型
用作HLA基因分型的参考序列数据库,采用2012-04-12发布的3.8.0版本IMGT/HLA(http://www.eb1.ac.uk/imgt/hla/),并从中提取 HLA I 型 A、B、C 的外显子 2、3 核苷酸片段,以及HLA II型DRB1、DQBl的外显子2核苷酸片段。依据上述“发明内容”中的“技术路线”部分,首先基于NCBI本地版BLASTN工具,将这10个样本的8个外显子测序reads数据,分别比对到参考序列数据库中。然后,对BLASTN比对结果依次进行错配筛选、最佳匹配筛选以及长度筛选。由于此次测序是基于454 GS FLX的single-end测序,故而无需进行paired-end筛选。接着,采用启发式策略排除明显不可能的参考序列后,针对同一 HLA基因座位所有的可能等位基因组合(纯合子为单一序列,杂合子为两两组合),分别计算出每种组合的不同reads的数目。最后,reads数目最多的组合被认定为相应的样本HLA等位基因型。结果显示,10个样本中5个HLA等位基因位点绝大多数都能被正确分型。本发明基于各种高通量测序平台数据的图形化HLA分型软件,在临床或生物医学上均具有重要的意义。相比传统的PCR-SBT方法测序方法,高通量测序技术无论在经济成本还是时间成本上,均具有显著的优势。高通量测序技术只需通过一次实验就能够读取数千份样本的HLA序列数据,并一次性达到HLA分型的高分辨率,同时还可发现新的等位基因。在检测通量、数据质量、成本控制等方面都有质的飞跃,真正做到了 “低分价格,高分数据”,能避免多次配型给患者造成的额外经济负担,同时快捷的分型方法,也能减少查找与患者HLA匹配的供者的周期,为治疗争取了宝贵的时间。其主要创新体现如下。1、第一个可针对多种高通量测序平台如Roche 454、illumina Solexa和LifeTechnologies 1n torrent PGM技术进行高通量分析的HLA分型软件; 2、相比经典的PCR-SBT,高通量测序的时间成本和经济成本均大幅降低;
3、同时,高通量测序检测的分辨率和准确度也显著提高,可一次性达到HLA配型所需的高分辨率,预测准确率在95%以上;
4、易图形化,使得没有计算机背景的临床医生或生物学家能够快速地掌握其使用方
法;
5、可发现新的等位基因;
6、HLA基因数据库更新后,可以再次进行结果分析,即分型结果可以更新。
权利要求
1.组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,针对已知并已被收录的HLA等位基因型,其特征在于包括步骤: I.采用高通量测序平台扩增测序得到reads序列片段; I1、以最新的IMGT/HLA数据库中包含的HLA等位基因为参考序列,将步骤I测序得到的reads序列片段与参考序列采用核酸序列比对工具进行比对,得到比对结果; II1、对比对结果进行错配、最佳匹配、长度和/或尾端匹配的多重筛选、过滤优化; IV、定义centralreads、所有reads的最小测序覆盖深度MCOR、central reads的最小测序覆盖深度MCCR,计算经步骤III过滤后每条参考序列的MCOR和MCCR值,并舍弃MCOR小于20且MCCR小于10的参考序列,对余下的参考序列,列出同一 HLA基因座位所有的可能组合,包括单一序列的纯合子及两两组合的杂合子,计算每种组合的不同reads的数目,reads数目最多的组合判定为相应的HLA等位基因型,其中central reads指的是在某个给定位点,参与比对的reads在给定位点左边的序列长度与右边的长度之比在0.5^2之间。
2.根据权利要求1所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:所述高通量测序平台至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。
3.根据权利要求1所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:所述核酸序列比对工具至少为BLASTN。
4.根据权利要求1所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:步骤III中所述错配筛选是指去除比对中含有错配或者空位的比对结果;所述最佳匹配筛选是指只保 留比对分值高于一定阀值的比对结果;所述长度筛选包括一剔除外显子长度超过50个碱基而比对长度小于50个比对碱基的比对结果,二剔除外显子长度小于50个碱基但比对长度却小于外显子长度的所有结果;所述尾端匹配筛选是指剔除参考序列只能比对到paired-end read中的一端,与此同时又存在其它参考序列能匹配到其两端的比对结果。
5.根据权利要求1所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:步骤IV中对于纯合子的参考序列,其计算所得reads数目需乘以一经验值1.05。
6.组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,针对新的未被收录的HLA等位基因型,其特征在于包括步骤:1、采用高通量测序平台扩增测序得到reads序列片段,在测序reads长度不能覆盖整个HLA等位基因外显子区域的情况下采用从头拼接方法得到重叠群序列,并保留测序reads长度足以覆盖整个外显子区域的reads序列; I1、以最新的IMGT/HLA数据库中包含的HLA等位基因为参考序列,将步骤I得到的reads序列或重叠群序列与参考序列采用核酸序列比对工具进行比对,得到比对结果; II1、根据序列比对分值最大判定最相近的HLA等位基因型,并确定其差异,发现新的等位基因型。
7.根据权利要求6所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:所述高通量测序平台至少包括Roche 454, Illumina Solexa, LifeTechnologies 1n torrent PGM。
8.根据权利要求6所述的组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,其特征在于:所述核酸序列比对工具至少为BLASTN。
全文摘要
本发明揭示了一种组织相容性抗原决定簇基因高通量测序的HLA基因分型方法,基于各种高通量测序平台数据的图形化HLA分型软件,在临床或生物医学上均具有重要的意义。相比传统的PCR-SBT方法测序方法,高通量测序技术无论在经济成本还是时间成本上,均具有显著的优势。高通量测序技术只需通过一次实验就能够读取数千份样本的HLA序列数据,并一次性达到HLA分型的高分辨率,同时还可发现新的等位基因。在检测通量、数据质量、成本控制等方面都有质的飞跃,真正做到了“低分价格,高分数据”,能避免多次配型给患者造成的额外经济负担,同时快捷的分型方法,也能减少查找与患者HLA匹配的供者的周期,为治疗争取了宝贵的时间。
文档编号C12Q1/68GK103074444SQ201310058260
公开日2013年5月1日 申请日期2013年2月25日 优先权日2013年2月25日
发明者王申俊, 其他发明人请求不公开姓名 申请人:苏州晶因生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1