一种基于三代测序平台的HLA基因分型方法与流程

文档序号:15272534发布日期:2018-08-28 22:36阅读:549来源:国知局
本发明属于生物信息学领域,具体涉及基于三代测序平台的hla基因分型方法。
背景技术
:人类白细胞抗原系统是人类主要组织相容性复合体(majorhistocompatibilitycomplex,mhc)的别称。它位于人类6号染色体短臂,由一系列紧密连锁的基因座构成。hla基因是人类基因组中多态性最高,迄今为止人类最复杂的遗传系统之一。hla基因编码的蛋白具有识别自体与非体,调节免疫应答等作用。匹配上正确而又高精度的hla型别对骨髓移植、器官移植是否成功起着决定性的作用。hlai类(hla-a、hla-b、hla-c)和hlaii类(hla-drb1、hla-dpb1、hla-dqb1)在配型中扮演主要角色。此外,hla基因的型别还与强直性脊椎炎、糖尿病等许多疾病密切相关。hla分型的分辨率可以分为以下四类:a.2位为等位基因;b.4位为特定hla蛋白质;c.6位为特定hla编码序列(cds);d.8位为特定的hla基因序列包括未翻译区和内含子。hla系统研究从70年代到80年代末期主要是血清学研究;90年代以来,hla进入了分子水平研究阶段。hla分型技术同样走过了这一历程。建立于60年代的血清学及细胞学分型技术主要侧重于分析hla产物特异性。1991年第11届国际hla专题讨论上提出了hla的dna分型方法,随着测序技术的突飞猛进,基于dna序列的分型方法已经取代了传统的血清学及细胞学分型方法。现dna分型方法主要分为两种:基于核酸序列识别的方法和基于序列分子构型的方法。基于核酸序列识别的方法主要有:pcr-rflp,pcr-sso,pcr-ssp和pcr-sbt(sequencebasedtyping,测序分型技术)。其中pcr-sbt测序方法是现世界卫生组织(who)推荐的hla分型方法的“金标准”。pcr-sbt方法通过pcr扩增相应hla的基因区域,对扩增产物测序,测序结果经过专业的软件分型,从而得到hla的基因型别信息。可达到四位的分辨率,并能检测到新的等位基因。相对之前传统的方法,其分辨率、准确度较高,可达到4位的分辨率。然而,pcr-sbt仍存在以下技术缺陷:(1)成本高,时间相对较慢;(2)pcr-sbt分型方法主要针对多态性位点比较集中的2、3、4号外显子的测定来确定其基因型,而对第1、5、6、7号外显子不进行测序,由于hla高度遗传多态性,在第1、5、6、7外显子上也有一定的多态性,因此现有的方法测定2-4外显子多态性,可能引起部分等位基因无法指定,存在歧义的结果,严重影响临床工作;(3)无法获得基因全长序列,对内含子和utr区的序列无法获得;(4)具有一定的随机、推断引入的错误;(5)对可变剪切位点的变异判别不敏感;(6)分型结果只能达到“4位分辨率”。基于二代测序的分型方法,对hla基因目的片段进行捕获或pcr扩增,将二代测序短序列进行拼接或组装,根据序列间重叠和连锁关系,构建单体型,对外显子区域进行序列或snv/indel的判定;和数据库的序列比较,分型。相对于之前基于一代测序的pcr-sbt方法,该方法降低了成本,提高了多样品的分型速度。二代测序易造成错误比对,很难跨越重复序列,并且由于pcr造成的gc偏好往往导致gc富集区域的错误覆盖,影响变异检测的准确性。测序读长短,需要依赖拼接和组装、连锁分相等可能引入错误,尤其是snp较少的区域,很难保证分相的准确性。无法获得基因全长,无法全面地揭示hla的多态性。三代单分子测序(singlemoleculereal-time(smrt)sequencing)平台,smrt测序提供具有10-15kb读数的单分子读长,能够跨越大多数hlai类和部分ii类基因。通过目标区域测序(targetedsequencing)方法,对hla区域进行扩增。laa(longampliconanalysis软件)分相技术对hla目标区域进行扩增,进行三代pacbiosequel测序,对原始reads(读长)基于最大似然法进行粗聚类,用基于quiver的算法对聚类后的序列分相,然后用quiver算法对单倍型矫正,获得一致性序列。laa分相的技术缺陷有:(1)在高深度的情况下,成百上千条reads进行聚类,耗用内存非常大、计算量非常大,耗用时间长(耗用时间由扩增子大小决定,2-3k的扩增子要耗用3个小时,耗用内存由扩增子大小和测序深度决定);(2)聚类只能采用是原始的reads,hla为人类基因组中多态性最高的遗传系统,对该区域分型,得到真实的snv/indel非常关键,laa真实的snv/indel和三代测序错误引进的snv/indel未作区分,即进行聚类,影响结果准确性;在没有矫正错误率的情况下,聚类出的单体型和真实的单体型有一定程度的出入;(3)对单个snv/indel不敏感,根据固定算法聚类分相,操作不够灵活。基于三代测序的依赖最大深度的hla分型技术,其技术方案为基于原始下机nanopore数据,对blast比对后的i类的hla基因计算每种深度,深度最高的为其hla型别。基于三代测序的依赖最大深度的hla分型技术方案缺陷:1)经过blast比对,对不完全比对的结果进行计数,方法不严谨;2)分型准确率低;技术实现要素:本发明利用新的三代测序技术进行全长测序(外显子以及内含子,utr区域),并且用开发的程序进行超高分辨率的hla分型,可得到基因全长序列,可达到6位或8位的高精度分型。本发明公开了一种基于三代测序平台的hla基因分型方法,包括以下步骤:(1)对需要分型的hla基因进行pcr扩增;(2)pcr所得产物检测合格后,进行三代测序,获得原始数据;(3)将原始数据与参考基因序列进行长序列比对,所述参考基因序列为ipd-imgt/hla数据库中的一条最长序列;(4)比对后采用如下程序对测序错误进行矫正:(4.1)编码原始比对矩阵经过和参考序列的比对,所述hla基因组成了由碱基构成的特有矩阵;使用samtools软件的tview命令,输出文本格式的碱基与参考基因序列的比对矩阵;以参考基因的位置为横坐标、以i表示,以深度为纵坐标、以j表示,矩阵组成单元以x表示;设置初始阈值y,所述y表示默认的错误率,所述错误率为测序错误占总深度的比例,所述错误率为10%;每个i位置的碱基纵向的总深度为dep_total[i];统计每个i位置对应的所有j位置x的数量num(x),并计算x对应的深度dep(x);(4.2)纯合、杂合位点的可视化矫正(4.2.1)设置初始错误率阈值y,所述y为10%;(4.2.2)确定扩增子杂合等位型j位置及比例;对于每个i位置,当dep(x)>y,使用dep(x1)代表最大深度碱基类型的深度,仅次于dep(x1)的深度,用dep(x2)表示,若有第三大碱基类型的深度,为dep(x3);对整个扩增子的杂合比例进行计算,当dep(x2)/(dep(x1)+dep(x2))<20%时,假设其为纯合子;当dep(x2)/(dep(x1)+dep(x2))>=20%时,假设其为杂合二倍型别,选取snv等位型杂合比最接近0.5的四个点,该四个点依照以下规则选取:以δi衡量snv等位型杂合比与0.5的接近程度,δi=(dep(x1)/dep_total[i]-0.5)2+(dep(x2)/dep_total[i]-0.5)2;选取δi最小的四个i位置;且该四个位置前后两个位置的dep(*)小于总深度的20%,否则继续根据δi筛选;根据该四个i位置确定矩阵中每个j位置的连锁相:(4.2.2.1)对于矩阵中该四个杂合位点,第一个杂合位点i位置最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位2,确定第一个杂合位点的不需要矫正的j坐标的相位;(4.2.2.2)第二个杂合位点的相位根据第一个杂合位点的每一个j坐标的相位情况确定:若相位1对应的碱基类型有80%为该i位置的最大深度dep(x1)的碱基类型,且相位2对应的碱基类型有80%为该i位置的第二大深度dep(x2)的碱基类型,则最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位2;若相位1对应的碱基类型有80%为该i位置的最大深度dep(x2)的碱基类型,且相位2对应的碱基类型有80%为该i位置的最大深度dep(x1)的碱基类型,则第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位1,最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位2;若满足以上两个条件,则根据该方法确定其它杂合位点的连锁相;若以上两个条件不都满足,继续根据第三个位点分别和第一个杂合位点、第二个杂合位点进行判断;满足(4.2.2.2)所述要求的位点,共同确定连锁相,不满足要求的位点被作为纯合位点;第四个i位置,依照此方法,对前面三个点进行验证和对不确定相位的j位置补缺;对于该四个杂合位点,相位1对应的j位置组成数组j(phase1),相位2对应的j位置组成数组j(phase2)。以相位1对应的基因型的深度为dep(phase1),以相位2对应的基因型的深度为dep(phase2),计算杂合基因型的比例rh:rh=dep(phase1)/[dep(phase1)+dep(phase2)];(4.2.3)确定纯合位点与杂合位点;对于每个i位置,满足以下任意一种情况,则为杂合位点:①dep(x1)对应的碱基j位置至少80%属于数组j(phase1),dep(x2)对应的碱基j位置至少80%属于数组j(phase2);②dep(x1)对应的碱基j位置至少80%属于数组j(phase2),dep(x2)对应的碱基j位置至少80%属于数组j(phase1);否则为纯合位点;根据矩阵中杂合位点j位置的连锁相的判断,对纯合、杂合位点再次验证调整;初步确定该扩增子或基因为纯合单体型还是杂合二倍型;(4.2.4)碱基矫正对于纯合位点,该i位置调整y=dep(x2);当dep(x)<=y,则该处ij坐标的碱基被矫正为最大深度dep(x1)的碱基类型;对于杂合位点,该i位置调整y=dep(x3);当dep(x)<=y,则该处ij坐标将根据其连锁相,从而决定该处ij坐标的碱基被矫正为最大深度dep(x1)的碱基或第二大深度dep(x2)的碱基;(4.2.5)输出后验矩阵(5)分相得到单体型序列对矫正后的矩阵进行序列读取;根据(4.2.3)确定的确定该扩增子为纯合单体型或杂合二倍型,若为纯合单体型,输出最大深度的一条单体型序列;否则根据(4.2.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;输出最大深度的两条单体型序列,以两条单体型序列深度为单位,和对应(4.2.2.2)中的dep(phase1)、dep(phase2)进行卡方检验,确定该扩增子为纯合单体型或杂合二倍型,输出一致性序列;(6)分型判断(6.1)根据比对位置,确定单体型序列的每个外显子编号及对应的碱基序列;对于每条单体型序列,根据外显子匹配度输出完全匹配结果result1,否则输出最佳匹配的6位分型结果result1,同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别,作为result1;(6.2)进一步对单体型全长匹配打分若ipd-imgt/hla数据库中基因全长序列文件hla_gen.fasta,有result1的分型,则将单体型中内含子的序列,与数据库中的参考序列进行匹配打分;给出最佳8位分型结果result2,若突变则同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别result2。根据本发明的实施方式,上述步骤(4.1)中所述深度dep(x)表示如下:匹配:num(,)+num(.)=dep(match)不匹配:num(*)=dep(*)断开无匹配:num()=dep(space)a突变或插入:num(a)=dep(a)t突变或插入:num(t)=dep(t)c突变或插入:num(c)=dep(c)g突变或插入:num(g)=dep(g)x的类型和samtoolstview的输出结果类型一致,dep(match)表示矩阵中该位点测序序列和参考基因组匹配的深度,分别包括反向匹配和正向匹配,num(,)表示矩阵中该位点反向匹配的数量,num(.)表示矩阵中该位点正向匹配的数量;dep(*)表示矩阵中测序序列及参考序列间该位点无匹配的深度,num(*)表示不匹配的数量;dep(space)表示矩阵中该位点没有序列覆盖的深度,num()表示矩阵中该位点空格的数量;dep(a)、dep(t)、dep(c)、dep(g)分别表示a、t、c、g突变或插入的深度。上述步骤(1)中所述hla基因可为hla-a、hla-b、hla-c、hla-drb1、hla-dqb1或hla-dpb1中的任意一种或几种。根据本发明的实施方式,扩增hla-a所用的引物序列如seqidno:1~2所示,扩增hla-b所用的引物如seqidno:3~4所示,扩增hla-c所用的引物如seqidno:5~6所示,扩增hla-drb1所用的引物序列如seqidno:7~10所示,扩增hla-dqb1所用的引物序列如seqidno:11~12所示,扩增hla-dpb1所用的引物序列如seqidno:13~16所示。上述hla基因可来自单个样品。上述hla基因可来自多个样品,hla基因的引物的5’端加有用于区分样品的barcode(条形码)序列。根据本发明的实施方式,上述barcode序列可为如seqidno:17~28所示的序列。根据本发明的实施方式,其中步骤(3)中所述长序列比对为长序列blasr比对。根据本发明的实施方式,上述步骤(2)中可对原始数据进行css矫正,随后步骤(3)中用css矫正后的数据与所述参考基因序列进行长序列blasr比对。根据本发明的实施方式,上述css矫正所用软件为smrtlinkv5.0软件包中的ccs软件。在本发明中,三代测序平台可以是但不限于pacbiosequel、nonopore或pacbiorsii。有益效果近年来随着测序技术的发展,越来越多的hla基因被命名。二代测序易造成错误比对,很难跨越重复序列,并且由于pcr造成的gc偏好往往导致gc富集区域的错误覆盖,影响变异检测的准确性。三代在检测hla基因多样性的优势:准确、快速、长读长。实现无插补等位基因分离,检测5'utr内含子和3'utr内调节区的变体,真正的揭示了hla等位基因多样性。然而三代测序具有较高的错误率,若直接用来分型;会造成由于错误率引入的snv/indel和真正的snv/indel区分不开。本发明根据三代错误率特点,有效的矫正了错误的snv/indel,确保了分型的准确性。可视化的错误纠正。对hla分相、分型更清晰。应用本发明所描述的方法对hla进行分型,可占用较小的内存,高速、批量的完成hla分型。附图说明图1为部分样品hla基因pcr扩增产物实验胶图。图2为hla基因分型的数据矫正的示意图。图3为总的hla分型流程图。具体实施方式取30例单体型不完全一致的外周血全基因组dna样品,用于hlai类(hla-a、hla-b、hla-c)和hlaii类(hla-drb1、hla-dpb1、hla-dqb1)分型。实施例130例样品的6个hla基因(hlai类(hla-a、hla-b、hla-c)和hlaii类(hla-drb1、hla-dpb1、hla-dqb1))加barcode进行混样上机测序并分型,实验步骤如下:1、样品制备和扩增1.1试剂准备1.1.1引物设计由8个扩增子富集hla-a,b,c,drb1,dqb1,dpb1六个hla基因(其中drb1,dpb1分开两段进行扩增)的5’utr和3’utr区域设计引物,并在引物的5’端加上barcode序列。barcode序列是为了区分样品,每个样品针对各个基因加的barcode一样,但是引物序列不一样。采用asymmetricbarcode,即上游引物和下游引物使用不同的barcode。具体编号组合见表1barcode编号与引物编号组合,其中bc后面的数字代表barcode编号,a和an代表hla-a的dna的扩增子,b和bn代表hla-b的dna的扩增子,c和cn代表hla-c的dna的扩增子,3-drb1和rn3代表drb1的dna的3’端的扩增子,5-drb1和rn5代表drb1的dna的5’端的扩增子,qn代表dqb1的dna的扩增子,3-dpb1和pn3代表dpb1的dna的3’端的扩增子,5-dpb1和pn5代表dpb1的dna的5’端的扩增子,f代表上游引物,r代表下游引物。引物和barcode序列见表2。表1实验barcode编号与引物编号组合表2引物和barcode序列1.1.2模板dna1.1.3primestargxl(takara)1.1.4pcr水1.2实验室仪器及耗材准备1.2.1eppendorf移液器(0.5-2.5ul,l-10ul,2-20ul,10-100ul,20-200ul,100-1000ul)及吸头(0.5-10ul,20-200ul,100-1000ul)1.2.21.5ml离心管,0.2mlpcr管,离心管架,96孔pcr管架1.2.3冰箱(4-℃20,℃)1.2.4振荡器1台1.2.5离心管离心机和pcr管离心机各1台1.2.6pcr仪1.2.7酒精喷壶(75%酒精),剪刀,垃圾箱与垃圾袋,吸水纸,镊子,酒精棉球1.2.8一次性无粉乳胶手套1.3操作步骤1.3.1pcr反应体系配制按表3配制pcr反应试剂体系。表3pcr反应体系表组分用量ul5xprimestargxl缓冲液4dntp(每种2.5mm)1.6f(10pmol/ul)0.8r(10pmol/ul)0.8primestargxl0.4模板dna10ng水至20ul1.3.2pcr反应程序按表4的pcr反应程序进行。表4pcr反应程序表1.3.3扩增片段电泳检测1%琼脂糖凝胶电泳检测扩增片段。5-drb1可能出现两条带或一条带,其它扩增子都应产生单一条带。1.3.4纯化pcr产物1.3.4.1在96孔pcr板上,每个孔中加入8ulxp磁珠。1.3.4.2吸取10ulpcr产物,加入相应的已加入磁珠的孔中,并小心吹吸混匀。1.3.1.3室温结合5分钟后,将96孔板放在96孔磁力架上静置2分钟,吸出上清丢弃。1.3.4.4每个孔中加入新鲜配制的70%乙醇200ul,清洗磁珠30秒,在磁力架上吸出70%乙醇丢弃。重复本步骤一次。1.3.4.5取下96孔板,室温晾干残留的乙醇。1.3.4.6每个孔加入8ul水或eb缓冲液,吹吸混匀磁珠,洗脱5分钟。1.3.4.7将96孔板放回磁力架上,吸附2分钟。1.3.4.8吸取上清至新的96孔板。1.3.4.9nanodrop测浓度,根据附表5计算摩尔浓度。表5摩尔浓度计算公式表1.3.5混合纯化后的pcr产物1.3.5.1根据表6的比例,混合每个样品所得到的8个pcr产物(其中drb1与dpb1两个基因分别分为两段扩增)。表6pcr产物混合比例表扩增子名称比例%a6%b6%c6%5-drb1(包含1号外显子)10%4-drb1(包含2,3,4号外显子)26%dqb126%5-dpb1(包含1,2号外显子)10%4-dpb1(包含3,4,5号外显子)10%表6的上样量,是根据基因长度和基因特异性、基因扩增效率等综合因素,在多次实践摸索中得到的结果,在充分考虑了上述因素后,以扩增子abc(3k左右)为基数,其余较长的片段增加为1.5-4倍,其比例按照长度增加而相应增加;5-drb1由于其扩增特异性及扩增难度,亦上调上样量至基数的1.5倍。本次实验胶图部分如图1所示,图1中,“rn3”代表drb1的dna的3’端的扩增子;“rn5”代表drb1的dna的5’端的扩增子;“qn”代表dqb1的dna的扩增子;“pn3”代表dpb1的dna的3’端的扩增子;“pn5”代表dpb1的dna的5’端的扩增子。1.3.5.2根据样品的数目,芯片的产出,需要的数据量,按需求混合不同的样品,用于三代测序文库构建。2、三代测序文库构建完成,检测合格后,进行上机测序。3、对下机数据进行评估,获得5.8g的数据。4、通过smrtlinkv5.0软件包中的bam2bam软件,根据barcode拆分不同样品,每个样品原始数据通过smrtlinkv5.0软件包中的ccs软件进行序列之间的矫正(或不进行)。5、将ccs矫正后的数据(或下机数据)与参考序列从ipd-imgt/hla数据库中每种hla基因取一条最长序列作为参考序列)进行长序列blasr比对;6、比对后采用如下程序批量对每个样品每种基因进行矫正:6.1、编码原始比对矩阵ccs经过和参考序列的比对,每个样品的每个基因均组成了由碱基构成的特有矩阵;使用samtools软件,输出文本格式的碱基与参考基因序列的比对矩阵。以参考基因的位置为横坐标、以i表示,以深度为纵坐标、以j表示;根据三代错误率的规律,设置初始阈值y(y表示默认的错误率10%,即测序错误/占总深度的比例);每个i位置的碱基纵向的总深度为dep_total[i];统计每个i位置对应的所有j位置x的数量num(x),并按如下表示x对应的深度dep(x):匹配:num(,)+num(.)=dep(match)不匹配:num(*)=dep(delition)断开无匹配:num()=dep(space)a突变或插入:num(a)=dep(a)t突变或插入:num(t)=dep(t)c突变或插入:num(c)=dep(c)g突变或插入:num(g)=dep(g)6.2、纯合、杂合位点的可视化矫正6.2.1、设置初始错误率阈值y(10%)6.2.2、确定扩增子杂合等位型j位置及比例;(4.2.2)确定扩增子杂合等位型j位置及比例;对于每个i位置,当dep(x)>y,使用dep(x1)代表最大深度碱基类型的深度,仅次于dep(x1)的深度,用dep(x2)表示,若有第三大碱基类型的深度,为dep(x3);对整个扩增子的杂合比例进行计算,当dep(x2)/(dep(x1)+dep(x2))<20%时,假设其为纯合子;当dep(x2)/(dep(x1)+dep(x2))>=20%时,假设其为杂合二倍型别,选取snv等位型杂合比最接近0.5的四个点,该四个点或n个点依照以下规则选取:以δi衡量snv等位型杂合比与0.5的接近程度,δi=(dep(x1)/dep_total[i]-0.5)2+(dep(x2)/dep_total[i]-0.5)2;选取δi最小的四个i位置;且该四个位置前后两个位置的dep(*)小于总深度的20%,否则继续根据δi筛选;根据该四个i位置确定矩阵中每个j位置的连锁相:6.2.2.1、对于矩阵中该四个杂合位点,第一个杂合位点i位置最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位2,确定第一个杂合位点的不需要矫正的j坐标的相位;6.2.2.2、第二个杂合位点的相位根据第一个杂合位点的每一个j坐标的相位情况确定:若相位1对应的碱基类型有80%为该i位置的最大深度dep(x1)的碱基类型,且相位2对应的碱基类型有80%为该i位置的第二大深度dep(x2)的碱基类型,则最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位1,第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位2;若相位1对应的碱基类型有80%为该i位置的最大深度dep(x2)的碱基类型,且相位2对应的碱基类型有80%为该i位置的最大深度dep(x1)的碱基类型,则第二大深度dep(x2)的碱基类型对应的矩阵的j位置为相位1,最大深度dep(x1)的碱基类型对应的矩阵的j位置为相位2;若满足以上两个条件,则根据该方法确定其它杂合位点的连锁相;若以上两个条件不都满足,继续根据第三个位点分别和第一个杂合位点、第二个杂合位点进行判断;满足(6.2.2.2)所述要求的位点,共同确定连锁相,不满足要求的位点被作为纯合位点;第四个i位置,依照此方法,对前面三个点进行验证和对不确定相位的j位置补缺。对于该四个杂合位点,相位1对应的j位置组成数组j(phase1),相位2对应的j位置组成数组j(phase2)。以相位1对应的基因型的深度为dep(phase1),以相位2对应的基因型的深度为dep(phase2),计算杂合基因型的比例rh:rh=dep(phase1)/[dep(phase1)+dep(phase2)];6.2.3、确定纯合位点与杂合位点;对于每个i位置,满足以下任意一种情况,则为杂合位点:①dep(x1)对应的碱基j位置至少80%属于数组j(phase1),dep(x2)对应的碱基j位置至少80%属于数组j(phase2);②dep(x1)对应的碱基j位置至少80%属于数组j(phase2),dep(x2)对应的碱基j位置至少80%属于数组j(phase1);否则为纯合位点;根据矩阵中杂合位点j位置的连锁相的判断,对纯合、杂合位点再次验证调整;初步确定该扩增子或基因为纯合单体型还是杂合二倍型;6.2.4、碱基矫正对于纯合位点,该i位置调整y=dep(x2);当dep(x)<=y,则该处ij坐标的碱基被矫正为最大深度dep(x1)的碱基类型;对于杂合位点,该i位置调整y=dep(x3);当dep(x)<=y,则该处ij坐标将根据其连锁相,从而决定该处ij坐标的碱基被矫正为最大深度dep(x1)的碱基或第二大深度dep(x2)的碱基;6.2.5、输出后验矩阵矫正后的矩阵,呈现无杂点,具有明显的一致性。7、分相(phasing)得到单体型序列对矫正后的矩阵进行序列读取;根据(6.2.3)确定的确定该扩增子为纯合单体型或杂合二倍型,并根据(6.2.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;根据(6.2.3.3)确定的确定该扩增子为纯合单体型或杂合二倍型,若为纯合单体型,输出最大深度的一条单体型序列;否则根据(6.2.3.3)确定的每个j位置的连锁相,对校正后的序列按照相位1和相位2归类;输出最大深度的两条单体型序列,以两条单体型序列深度为单位,和对应(6.2.2.2)中的dep(phase1)、dep(phase2)进行卡方检验,确定该扩增子为纯合单体型或杂合二倍型,输出一致性序列;8、分型判断8.1对分相后的单体型序列加刻度,同时对参考序列(ipd-imgt/hla数据库中每个型别的全套外显子序列文件hla_nuc.fasta)加刻度。每个外显子用exon表示,每个内含子用intron表示;每个外显子/或内含子的碱基位置用k表示。此时,同种基因的刻度相同。8.2分相后的单体型序列和参考序列进行匹配打分。①优先对单体型中外显子刻度的序列进行匹配打分对扩增子的所有外显子的碱基打分,基因的第2个外显子发生突变或gap均减3分,第3、4号外显子发生突变或gap(空位)均减2分;其他外显子突变或gap均减1分,匹配加1分;对于每条单体型序列,给出最高得分为最佳6位分型result1,若无扣分,则与数据库的分型完全匹配;否则同时打印该基因突变或gap处的刻度和突变类型,并标记为新的型别,作为result1。例如:新:a*11:01:01:01:外显子3,7bp.a-t表示该单体型和a*11:01:01:01基因最相似,在第三个外显子的第7个碱基处发生了a-t的突变。②进一步对单体型全长匹配打分若ipd-imgt/hla数据库中基因全长序列文件hla_gen.fasta,有result1的分型,则将单体型中内含子的序列,与数据库中的参考序列进行匹配打分;给出最佳8位分型结果result2,若突变则同时打印该基因突变或gap处的位置和突变类型,并标记为新的型别result2。所有同刻度下错配或gap均减1分,匹配加1分;对于每条单体型序列,若内含子减分次数小于3次,给出最高得分为最佳8位分型result2,同时打印该基因突变或gap处的刻度和突变类型,并标记为新的型别result2;否则保留result1。9、分型结果在三十个样品的分型中,我们将本发明得到的6位的分型结果和一代测序检测的4位分辨率的分型结果进行了比对,准确率达到100%,结果如表7所示(表7中从左到右第一列为样品编号,第二列为一代分型结果,第三列为三代分型结果)。表7本发明的分型方法与一代测序分型方法结果比对尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。序列表<110>北京希望组生物科技有限公司<120>一种基于三代测序平台的hla基因分型方法<160>28<170>siposequencelisting1.0<210>1<211>20<212>dna<213>人工序列(artificialsequence)<400>1tgtcgggtttccagagaagc20<210>2<211>20<212>dna<213>人工序列(artificialsequence)<400>2gtgggaagagggtcatggtg20<210>3<211>19<212>dna<213>人工序列(artificialsequence)<400>3acgcacccacccggactca19<210>4<211>20<212>dna<213>人工序列(artificialsequence)<400>4acaaaggggaggmgtgaaga20<210>5<211>19<212>dna<213>人工序列(artificialsequence)<400>5cgtccccaattcccactcc19<210>6<211>22<212>dna<213>人工序列(artificialsequence)<400>6aggctcttgaagtcacaaagga22<210>7<211>26<212>dna<213>人工序列(artificialsequence)<400>7tcagatgctgattsgttctccaacac26<210>8<211>24<212>dna<213>人工序列(artificialsequence)<400>8tccaatccccacagagtagctaga24<210>9<211>22<212>dna<213>人工序列(artificialsequence)<400>9ggccatcrctttcactgctctt22<210>10<211>24<212>dna<213>人工序列(artificialsequence)<400>10ctgyaggccacaagctattatgct24<210>11<211>24<212>dna<213>人工序列(artificialsequence)<400>11tgacagcaattttctctcccctga24<210>12<211>21<212>dna<213>人工序列(artificialsequence)<400>12ygtgacagccactgtaggact21<210>13<211>20<212>dna<213>人工序列(artificialsequence)<400>13actctgtccaatcccagggt20<210>14<211>20<212>dna<213>人工序列(artificialsequence)<400>14cccctgacaagctccagatg20<210>15<211>22<212>dna<213>人工序列(artificialsequence)<400>15ggtactggtggcagagatccaa22<210>16<211>25<212>dna<213>人工序列(artificialsequence)<400>16gggtcctatcaggcagatttgcagt25<210>17<211>16<212>dna<213>人工序列(artificialsequence)<400>17catagcgactatcgtg16<210>18<211>16<212>dna<213>人工序列(artificialsequence)<400>18catcactacgctagat16<210>19<211>16<212>dna<213>人工序列(artificialsequence)<400>19cgcatctgtgcatgca16<210>20<211>16<212>dna<213>人工序列(artificialsequence)<400>20tatgtgatcgtctctc16<210>21<211>16<212>dna<213>人工序列(artificialsequence)<400>21gtacacgctgtgacta16<210>22<211>16<212>dna<213>人工序列(artificialsequence)<400>22cgtgtcgcgcatatct16<210>23<211>16<212>dna<213>人工序列(artificialsequence)<400>23tatgcatgactgatat16<210>24<211>16<212>dna<213>人工序列(artificialsequence)<400>24cgagactgtcgatctc16<210>25<211>16<212>dna<213>人工序列(artificialsequence)<400>25cgcgcgtgtgtgcgtg16<210>26<211>16<212>dna<213>人工序列(artificialsequence)<400>26cacacgcgcgtgctcg16<210>27<211>16<212>dna<213>人工序列(artificialsequence)<400>27atctgtgcgagactac16<210>28<211>16<212>dna<213>人工序列(artificialsequence)<400>28acgcgcacagagtctc16当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1