一种基于PacbioRSII测序平台的HLA分型方法_2

文档序号:9391982阅读:来源:国知局
、HLA-C的PCR产物混合按照PacBio的标 准建库流程构建l〇k文库,之后用PacBioRSII测序,所用试剂为P6-C4试剂。
[0038] 测序数据的结果统计如表2所示。
[0039]表 2 [00401

[0041]表 2 中,Post_Filter#of Bases过滤后的喊基数目;Post_Filter#of Reads过 滤后的reads条数;Post-Filter Mean Read Length过滤后read平均长度;Post-Filter Mean Read Quality过滤后平均read的质量;#of SubReads去掉接头后的subreads条数; Mean Subread Length去掉接头后的subreads平均长度;Longest read最长的reads的喊 基数。
[0042] 从表2可以看出,平均长度3. 6K,过滤后质量均达到质控指标,说明此次建库以及 测序成功。
[0043] 5.样本分选:测序完后的原始数据先用Smrt analysisV2. 3软件进行校正,生成 高质量的CCS reads,然后根据barcode和引物信息把不同样本的HLA-A、HLA-B、HLA-C基 因的序列分开,分选基因的原则是read的头部或者尾部有100%匹配的barcode和引物信 息。这样得到HLA-A、HLA-B、HLA-C基因的reads序列信息reads of insert序列,如表3 所示。
[0044]表 3.reads of insert统计
[0045]
[0046] 我们观察到一条reads of insert含有单条barcode(只有一条barcode)、一对以 上的barcode (含有一对以上barcode)、No barcode (不含有barcode序列)三种情况,见表 4,因此我们在分选之前先把这些异常的reads(不含barcode以及含两条以上的barcode) 过滤掉。最终可以用来做后续分选的reads有18, 727条,占所有的reads of insert的 65. 04%。不同类型的CCS reads的分布如图2所示。
[0047] 表4.分选的reads统计
[0048]
[0049]注释:num-all-ccs :所有ccs reads ;
[0050] num_repeat_ccs :还有多条重复barcode的ccs reads ;
[0051] num-0-ccs :不含有barcode的ccs reads ;
[0052] num-1-ccs :含有单个barcode 的 ccs reads ;
[0053] num-2-ccs :含有一对barcode 的 ccs reads ;
[0054] num-3-ccs :含有三个barcode 的 ccs reads ;
[0055] num_4_ccs :含有四个或者以上 barcode的ccs reads。
[0056] 按照barcode100%相似度把reads分到不同的样本。总共有16, 252个reads可 以分到不同的样本中(见表5),而用来做分选的reads有18, 727条,分选效率为86. 8%。
[0057] 表5.分选结果统计
[0058]
[0059]
[0060]
[0061]
[0062] 6.HLA分型:HLA分型涉及到一系列的步骤,主要几点是:
[0063]i.每个样本每个基因的reads按照等位基因分成两份,一份是等位基因1,一份是 等位基因2。具体过程是把CCSreads通过bwa软件与参考序列比对,产生sam格式的比对 结果;之后通过samtools的phase命令,分成两份fastq的结果文件。等位分选结果如表 6所示。
[0064] 表6?等位基因分选结果
[0065]

[0068] ii.对等位基因的文件分别截取40条进行组装,采用Mira组装软件。组装之后分 别对可能存在错误的地方(例如polyC和polyG等特定的motif)进行校正。结果如表7 所示,其中〇代表没有组装出来,1代表组装出1条序列,其他数字代表组装出的多条序列。
[0069] 表7?等位基因组装结果
[0070]


[0073] ~~iii.对组装的结果进行分型。首先通过lastz将组装的结果比对到对应基因的 参考序列的genomics序列;之后根据genomics序列的⑶S位置信息将组装结果的所有的 ⑶S序列抓取出来,按照顺序连成一条⑶S序列;然后下载最新的頂GTHLA型别数据库,将 等位基因的CDS序列跟頂GTHLA型别数据库比对,如果100%的序列一样则将该型别号赋 予该等位基因,型别号统一只保留六位的型别精确度。
[0074] 分型结果如表8所示。
[0075] 表8.样本分型结果
[0076]


[0079] 通过本发明的HLA分型方法,总体一次分型率达到86. 4%。HLA-A基因一次性分 型成功率达到61. 6%,HLA-B基因一次分型成功率达到99. 4%,HLA-C基因一次分型成功率 达到98. 2%。由于本次实验A基因的扩增出现了一些问题,后续通过改善可以大大提高A 基因的一次分型成功率。
【主权项】
1. 一种基于Pacbio RS II测序平台的HLA分型方法,包括以下步骤: 1) 采集样本提取DNA,然后进行PCR扩增,其中PCR扩增所用引物是针对需要分型的 HLA基因的5 ' UTR和3 ' UTR区域设计的,且每对引物的5 '端都加有用于区分样本的Barcode 序列; 2) 将步骤1)得到的PCR产物混合建IOk文库,然后进行PacBio RS II测序; 3) 对测序得到的原始数据进行校正,得到高质量的CCS reads,并根据barcode序列和 引物信息把不同样本的不同HLA基因的reads序列分开; 4) 采用软件程序进行HLA分型,包括: 4-1)根据等位基因上的特异性位点将各样本的各HLA基因的reads序列分成两份文 件,一份为等位基因1,另一份为等位基因2 ; 4-2)对各等位基因的文件分别截取20~40条reads进行序列组装; 4-3)校正组装结果; 4-4)将校正后的组装结果与对应基因的基因组参考序列进行比对,并根据基因组参考 序列的CDS位置信息将组装结果的所有CDS序列抓取出来,按照顺序连成一条CDS序列; 4-5)将步骤4-4)得到的等位基因的⑶S序列跟頂GT HLA型别数据库比对,如果100 % 的序列一样则将该型别号赋予该等位基因。2. 如权利要求1所述的方法,其特征在于,步骤3)对测序得到的原始数据用Smrt analysisV2. 3软件进行校正,得到高质量的CCS reads,然后根据barcode和引物信息分选 基因,分选原则是reads的头部或者尾部有100%匹配的barcode和引物信息,得到不同样 本的不同HLA基因的reads序列信息。3. 如权利要求1所述的方法,其特征在于,步骤4-1)把CCS reads通过bwa软件与对 应基因的参考序列进行比对,产生sam格式的比对结果;之后通过samtools的phase命令, 分成两份fastq的结果文件。4. 如权利要求1所述的方法,其特征在于,步骤4-2)采用Mira组装软件进行组装。5. 如权利要求1所述的方法,其特征在于,步骤4-3)针对polyC和polyG这些特定的 motif?对组装结果进行校正。6. 如权利要求1所述的方法,其特征在于,步骤4-4)通过Lastz软件将组装的结果与 对应基因的基因组参考序列进彳丁比对。7. 如权利要求1所述的方法,其特征在于,步骤4-5)中型别号统一只保留六位。
【专利摘要】本发明公开了一种基于Pacbio?RS?II测序平台的HLA分型方法,采集样本提取DNA,并进行PCR扩增,将PCR产物混合建10k文库,进行PacBio?RS?II测序;然后对测序得到的原始数据进行校正,利用软件程序进行HLA分型。相比于现有的HLA分型方法,本发明的HLA分型方法具有超高的分辨率,对临床移植组织配型、群体遗传学、人类学和进化学等应用和基础研究工作具有重要价值。
【IPC分类】C12Q1/68
【公开号】CN105112518
【申请号】CN201510507667
【发明人】梁德全, 汪德鹏, 马传艳
【申请人】北京希望组生物科技有限公司
【公开日】2015年12月2日
【申请日】2015年8月18日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1