一种基于PacbioRSII测序平台的HLA分型方法

文档序号:9391982阅读:651来源:国知局
一种基于Pacbio RS II测序平台的HLA分型方法
【技术领域】
[0001] 本发明涉及基因测序技术领域,特别涉及HLA基因测序分型方法,具体涉及一种 基于第三代测序仪PacBioRSII的测序产生的HLA-A、HLA-B、HLA-C全长基因进行分型的方 法,主要用来超高分辨地对HLA基因进行型别划分。
【背景技术】
[0002] 人类白细胞抗原(Humanleukocyteantigen,HLA)系统是人类主要组织相容性 复合体(Majorhistocompatibilitycomplex,MHC)的别称,是人体内与免疫最相关的一 段基因组区域。它位于人类6号染色体短臂,由一系列紧密连锁的基因座构成。HLA基因 在人类基因组中基因多态性最高,个体之间的HLA型别差异度非常大。HLA基因具有识别 自体与非体,调节免疫应答等作用。在医学上,匹配上正确而又高精度的HLA型别对骨髓 移植、器官移植是否成功起着决定性的作用,并且研究发现许多疾病(例如:强直性脊椎炎 (AnkylosingSpondylitis,AS))都与HLA基因的某些型别相关。有研究发现在人类交往 中,HLA在异性吸引以及成功繁殖后代也起作用。
[0003] 目前的HLA分型方法主要有HLA血清型分型、细胞学分型,但是分辨率很低,且实 验操作繁琐。后来发展PCR分型方法,主要有单链构象多态性、限制性片段长度多态性、序 列特异性引物、序列特异性寡核苷酸探针,虽然分辨率有所提高,但是同样操作麻烦,成本 高。最近发展起来的基于第二代测序技术的PCR-SBT精度提高到高分辨率,价格也有所降 低。然而第二代测序技术也存在问题,主要是无法把HLA基因全部测通,还是局限在2、3、4 号外显子,内含子以及UTR区域的序列无法得到信息。
[0004]HLA型别不断增长,已经达到12, 242个aMGT/HLA数据库),而测序手段仍然局限 于2、3、4号外显子,精度不高,而且很多情况下等位基因无法分开。因此我们利用新的三代 测序技术进行全长测序(1-7号外显子以及内含子,UTR区域),并且用我们开发的程序进行 超高分辨率的HLA分型。

【发明内容】

[0005] 针对现有HLA测序分型技术存在的不足,本发明的目的在于利用新的三代测序技 术进行全长测序,包括1-7号外显子以及内含子、UTR区域,并且开发分型程序进行超高分 辨率的HLA分型。
[0006] 本发明的技术方案如下:
[0007] 一种基于PacbioRSII测序平台的HLA分型方法,包括以下步骤:
[0008] 1)采集样本提取DNA,然后进行PCR扩增,其中PCR扩增所用引物是针对需要分 型的HLA基因的5'UTR和3'UTR区域设计的,且每对引物的5'端都加有用于区分样本的 Barcode(条形码)序列;
[0009] 2)将步骤1)得到的PCR产物混合建10k文库,然后进行PacBioRSII测序;
[0010] 3)对测序得到的原始数据进行校正,得到高质量的CCSreads,并根据barcode序 列和引物信息把不同样本的不同HLA基因的reads序列分开;
[0011] 4)采用软件程序进行HLA分型,包括:
[0012] 4-1)根据等位基因上的特异性位点将各样本的各HLA基因的reads序列分成两份 文件,一份为等位基因1,另一份为等位基因2 ;
[0013] 4-2)对各等位基因的文件分别截取20~40条reads进行序列组装;
[0014] 4-3)校正组装结果;
[0015] 4-4)将校正后的组装结果与对应基因的基因组(genomics)参考序列进行比对, 并根据基因组参考序列的CDS位置信息将组装结果的所有CDS序列抓取出来,按照顺序连 成一条⑶S序列;
[0016] 4-5)将步骤4-4)得到的等位基因的⑶S序列跟頂GTHLA型别数据库比对,如果 100 %的序列一样则将该型别号赋予该等位基因。
[0017] 上述步骤2)进行PacBioRSII测序,从相对于之前的测序方法,可以非常准确的 把整个序列测通,为精准分型奠定了基础。如图1所示,(a)是之前的测序方法得到的结果, 由于测得的序列信息较短,对于等位基因1我们无法确定序列1和3同属一条序列,还是序 列1和4同属一条序列,等位基因2也面临同样的问题;而PacBioRSII测序可以非常准 确地把整个序列测通,如图1中(b)所示,可以确定两端序列的位置关系,为实现更为精确 的分型奠定了基础。
[0018] 优选的,上述步骤3)对测序得到的原始数据用SmrtanalysisV2. 3软件进行校 正,得到高质量的CCSreads,然后根据barcode和引物信息分选基因,分选原则是read的 头部或者尾部有100%匹配的barcode和引物信息,这样就得到了不同样本的不同HLA基因 的reads序列信息。
[0019] 优选的,上述步骤4-1)具体过程是把CCSreads通过bwa软件与对应基因的参 考序列进行比对,产生sam格式的比对结果;之后通过samtools的phase命令,分成两份 fastq的结果文件。其中比对根据的特异性位点通常是SNP位点。
[0020] 优选的,上述步骤4-2)采用Mira组装软件进行组装。
[0021] 优选的,上述步骤4-3)主要是针对polyC和polyG等特定的motif对组装结果进 行校正,因为这些motif非常容易组装成错误的序列。
[0022] 优选的,上述步骤4-4)通过Lastz软件将组装的结果与对应基因的基因组参考序 列进行比对。
[0023] 上述步骤4-5)由于选取的是⑶S序列进行分型,所以优选的,型别号统一只保留 六位的型别精确度。
[0024] 相比于现有的HLA分型方法,本发明的HLA分型方法具有超高的分辨率,对临床移 植组织配型、群体遗传学、人类学和进化学等应用和基础研究工作具有重要价值。
【附图说明】
[0025] 图1显示了PacBioRSII测序与之前测序方法的差别,其中(a)是之前测序方法 得到的结果,(b)是PacBioRSII测序结果,图中连续的点代表测得的序列,其中的大写英 文字母代表特异性位点的碱基。
[0026] 图2是本发明实施例不同类型的CCSreads的分布图。
【具体实施方式】
[0027] 以下通过实施例对本发明的方案进行详细说明。本领域的技术人员应该明白,下 面的实施例子仅用于解释说明本发明,而不是限定本发明的范围。
[0028] 实施例1 :82个样本的DNA提取、测序以及HLA分型
[0029] 本实施例针对口腔黏膜细胞样本提取DNA,扩增HLA-A、HLA-B、HLA-C的DNA片段, 然后混样,用PacBioRSII测序仪器测序,最后进行HLA分型。
[0030] 1?样本的采集:通过一次性采样拭子(注册产品编号为YZB/粵A0278-2012,深圳 市麦瑞科林科技有限公司)收集保存口腔黏膜细胞,保存液为2mL。
[0031] 2.DNA的提取:采用Qiagen公司的Blood&CellCultureDNAKit试剂盒进行提 取,提取后的液体体积为80yL左右,提取一次DNA的产物大概可以做20次左右的PCR。
[0032] 3.PCR扩增:在HLA-A、HLA-B、HLA-C三个基因的5'UTR和3'UTR区域设计引物, 并在引物的5'端加上barcode序列。Barcode序列是为了区分样本,每个样本针对HLA-A、 HLA-B、HLA-C基因加的barcode-样,但是引物序列不一样。例如,第3号和第4号样本的 barcode和引物序列的信息见表1。其中引物ID中A、B、C分别代表HLA-A、HLA-B、HLA-C 基因;ID后面的数字表示样本代号,即barcode编号;F表示5'UTR端的引物,R代表3'UTR 端的引物。
[0033]表1
[0034]
[0035]PCR扩增采用的酶为TaKaRa的PrimcSTAR沪GXLDNAPolymerase。组分体系: 5XPrimeSTARGXLBuffer(5mMMg2+)4yl,2.5mMdNTP1.6yl,正向引物和反向引物各 1111,基因组0嫩50即,总体积20^1。温度体系:94 1€2111111,98°(:108,651€208,30个循 环后 68°C或 72°C5min。
[0036] 取HLA-A、B、C三者PCR产物均合格的样本用Qubit定量,共246个产物,每个取 50ng等质量混合,然后进行磁珠纯化和浓度测定。
[0037] 4.建库测序:82个样本的HLA-A、HLA-B
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1