同时检测基因点突变、插入/缺失和CNV的方法及设备与流程

文档序号:12056544阅读:4194来源:国知局
本发明涉及生物
技术领域
,具体地,涉及同时检测基因点突变、插入/缺失和CNV的方法及设备。
背景技术
:我国是一个人口大国,也是出生缺陷高发国家。据估计,我国出生缺陷总发生率约为5.6%,以全国年出生数1600万计算,每年新增出生缺陷约90万例,其中出生时临床明显可见的出生缺陷约25万例。根据世界卫生组织估计,全球低收入国家的出生缺陷发生率为6.42%,中等收入国家为5.57%,高收入国家为4.72%。我国出生缺陷发生率与世界中等收入国家的平均水平接近,但由于人口基数大,每年新增出生缺陷病例总数庞大。出生缺陷日益成为我国突出的公共卫生问题和社会问题,影响整个国家人口素质和人力资源的健康存量,影响经济社会的健康可持续发展。出生缺陷是指婴儿出生前发生的身体结构、功能或代谢异常。出生缺陷可由染色体畸变、基因突变等遗传因素或环境因素引起,也可由这两种因素交互作用或其他不明原因所致,通常包括先天畸形、染色体异常、遗传代谢性疾病、功能异常如盲、聋和智力障碍等。出生缺陷不但是造成儿童残疾的重要原因,也日渐成为儿童死亡的主要原因,在全国婴儿死因中的构成比顺位由2000年的第4位上升至2011年的第2位,达到19.1%。根据全球出生缺陷报告报道,在各种出生缺陷中,由遗传因素导致的单基因病发生率为12.3‰,占出生缺陷比例的22.3%。单基因病由单基因突变所致,按遗传方式可以分为常染色体显性、常染色体隐性、X-连锁显性、X-连锁隐性、线粒体遗传及极罕见的Y染色体遗传等六种。单基因病的致病突变类型包括单碱基替换(包括小的插入和缺少突变),基因大片缺失、复制和重组。单基因病是造成新生儿致残、致死性出生缺陷的主要原因之一。目前,全球已发现近7000种单基因病(包括疑似),这些疾病虽然相对罕见(发病率在<1‰),但其累计发病率高达到1.5%-2.5%。目前,在已明确致病基因或分子机制的1600多种隐性单基因病中,有600多种可以导致非常严重的儿科病症,因此,单基因病是儿科医学护理的重点疾病类型。所有单基因病的累计婴儿致死率约为20%,累计儿科住院率约为18%。因此,单基因病防治是控制出生缺陷、实现我国优生优育工作的核心内容。同时,单基因病也是一类医学界和遗传学界难以攻克的顽疾,其预防比治疗更为可取 和有效。除少数例外,大多数单基因病目前仍缺乏可靠的治疗手段;而即使是少数可以治疗的单基因病,不仅治疗费昂贵、效果有限,而且其终生护理的需求对患者个人及其家庭也会带来巨大的经济和心理负担。因此,预防单基因病的最有效的方法,就是对育龄夫妇进行遗传检测(高危人群隐性携带突变检测和特殊病患者潜在致病基因突变检测),即对于那些发病机制明确、危害性大的单基因病进行基因检测。孕育期的夫妻可以根据基因检测及遗传咨询提供的信息(自己携带基因突变的具体情况),决策最佳的生育计划(选择不生、领养或通过辅助生育方式进行生育),从而达到降低出生缺陷风险和孕育健康胎儿的目的。在发达国家,对高危人群的若干严重隐性遗传疾病的孕前遗传检测和遗传咨询已经显著地降低了这些疾病的发病率。如Tay-Sachs病,一种婴儿期发病的常染色体隐性神经退行性疾病,患者多在2-5岁内死去,该病在北美德裔犹太人中的发病率为1/3600,但是经过几十年的孕前筛选及相应的方法措施,其发病率已经减少了90%以上的。同样在北美,孕前检测和遗传咨询措施也促使了囊肿性纤维化病的发病率显著降低。在我国,在某些高危地区一些具有严重后果的隐性遗传病(如G6PD缺乏症、地中海贫血等)孕前遗传检测,也已经纳入医疗系统之中。然而,受制于传统基因检测技术(sanger测序)的高成本和通量水平限制,全世界现行的孕前遗传检测方法只能在特定的区域性高危人群中针对少数具有严重危害的隐性遗传疾病进行,如即使在美国当前推荐的孕前遗传检测仅包括5项:FragileX综合征(针对特定个人),囊性纤维症(针对欧裔),TSD病、Canavan病和家族性自主神经功能异常(针对德系犹太人后裔)。近年来,随着新一代超高通量测序技术及目标区域捕获技术的发展,为突破当前孕前遗传检测的单基因、小人群中进行的局限,把孕前遗传检测推广到所有已知致病(或综合)基因成为可能。但是,高通量测序可以准确检出点突变,不能很好的检出外显子缺失和/或重复方法(CNV)。对于诸如HBA1、HBA2、DMD、SMN1等突变类型主要为CNV的基因,现有的检测方法主要有以下几种:微阵列比较基因组杂交技术(a-CGH)、MLPA、MAPH、SCAIP、多重PCR、DNA印迹、Sanger测序法和第二代测序技术。对于高通量检测上述基因CNV而言,上述这些检测方法的缺点是通量低、效率差。所以,为了实现准确、高效进行孕前遗传检测的目的,本领域中需要一种新的检测策略,在高通量测序基因点突变的同时,检测上述外显子缺失和重复突变。技术实现要素:本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种准确性高、操作方便的同时检测基因点突变、插入/缺失和CNV的方法及设备。在本发明的一个方面,本发明提供了一种同时检测基因点突变、插入/缺失和CNV的方法。根据本发明的实施例,该方法包括:根据目标区域的DNA序列,设计得到捕获芯片,所述捕获芯片包含多个探针,所述探针特异性识别所述目标区域;将所述捕获芯片与核酸样本文库进行杂交,以便捕获所述目标区域的DNA序列;对所述目标区域的DNA序列进行PCR扩增,以便获得扩增产物;将所述扩增产物进行测序,以便获得测序数据;对所述测序数据进行数据分析,以便获得基因点突变、插入/缺失和CNV检测结果,其中,所述目标区域为表1所示基因的编码区及其向前后延伸30bp的区域。利用本发明的该方法,能够快速有效的一次性检测候选基因点突变、插入/缺失和CNV,针对致病基因检测时,基于基因点突变、插入/缺失和CNV检测结果,能够筛查高发严重单基因遗传病,确定夫妻双方以上致病基因的携带情况,评估后代的患病风险,达到降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。该方法不仅费用低、操作方便、且可以一次性检测700多个常见致病基因,检测效率较高。根据本发明实施例的同时检测检测基因点突变、插入/缺失和CNV的方法还可以具有以下附加技术特征:根据本发明的实施例,所述捕获探针是通过OligoArray2.1.3涉及软件设计获得的。根据本发明的实施例,所述对所述测序数据进行数据分析包括:将所述测序数据与参考序列进行比对,并进行行化处理任务,以便获得比对结果;基于Picard的read去重复算法,对所述比对结果进行去重复处理,以便获得经过去重复处理的比对结果;基于GATK重比对模型将所述经过去重复处理的比对结果与所述参考序列进行重比对,以便获得重比对结果;基于并行化变异检测模块GaeaGenotyper,对所述重比对结果进行SNP和Indel检测;对所述重比对结果进行CNV检测。在本发明的另一方面,本发明提供了一种同时检测基因点突变、插入/缺失和CNV的设备。根据本发明的实施例,该设备包括:捕获芯片设计装置,所述捕获芯片设计装置用于根据目标区域的DNA序列,设计得到捕获芯片,所述芯片包含多个探针,所述探针特异性识别所述目标区域;捕获装置,所述捕获装置用于将所述捕获芯片与核酸样本文库进行杂交,以便捕获所述目标区域的DNA序列;扩增装置,所述扩增装置用于对所述目标区域的DNA序列进行PCR扩增,以便获得扩增产物;测序装置,所述测序装置用于将所述扩增产物进行测序,以便获得测序数据;数据分析装置,所述数据分析装置用于对所述测序数据进行数据分析,以便获得基因点突变、插入/缺失和CNV检测结果,其中,所述目标区域为表1所示基因的编码区及其向前后延伸30bp的区域。利用本发明的设备,可以快速有效地同时检测检测基因点突变、插入/缺失和CNV,且成本低廉、操作简单,可有效用于单基因遗传病的筛查,从而能够达到降低出生缺陷、科学指导优生优育、提高人口出生 质量的目的。根据本发明实施例的同时检测检测基因点突变、插入/缺失和CNV的设备还可以具有以下附加技术特征:根据本发明的实施例,捕获探针设计装置为OligoArray2.1.3设计软件。根据本发明的实施例,所述数据分析装置进一步包括:比对单元,所述比对单元用于将所述测序数据与参考序列进行比对,并进行行化处理任务,以便获得比对结果;去重复单元,所述去重复单元用于基于Picard的read去重复算法,对所述比对结果进行去重复处理,以便获得经过去重复处理的比对结果;重比对单元,所述重比对单元用于基于GATK重比对模型将所述经过去重复处理的比对结果与所述参考序列进行重比对,以便获得重比对结果;SNP和Indel检测单元,所述SNP和Indel检测单元用于基于并行化变异检测模块GaeaGenotyper,对所述重比对结果进行SNP和Indel检测;CNV检测单元,所述CNV检测单元用于对所述重比对结果进行CNV检测。本发明至少具有如下有益效果:1、本发明的同时检测基因点突变、插入/缺失和CNV的方法能够有效用于的孕前基因检测流程,且费用低、操作方便且覆盖多种疾病,通过自行设计的疾病检测芯片,对表型正常、无遗传病家族史的健康育龄夫妇,一次性检测737个相对常见致病基因,筛查600多种表型严重、致死致残的单基因隐性遗传病。2、本发明的方法全面准确,可以一次性检测多种突变类型,包括Missense、Nonsense、Splice、Indel、CNV等,去dup之后的有效深度>200X,有效平均覆盖度>99.9%,准确率高。3、本发明同时检测基因点突变、插入/缺失和CNV的方法,能够有效用于孕前基因检测,不同于12种常见遗传病基因检测,本发明的方法主要针对有不良妊娠史以及IVF中心的配子供体和受体的配对检测,将出生缺陷防控提前至婚孕前进行,通过确定双方致病基因的携带情况,评估后代的患病风险,达到降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。附图说明图1显示了根据本发明的实施例,目标区域捕获结合高通量测序的流程图;图2显示了根据本发明的实施例,测序结果分析流程图;图3显示了插入片段的大小和分布情况;图4显示了测序数据的质量分布情况;图5显示了单个碱基的平均测序错误率;图6显示了一个样本的GC含量分布情况;图7显示了本发明的数据解读流程;图8显示了TYR基因c.925_926insC突变的正链Reads比对结果;图9显示了TYR基因c.1199G>T突变的正链Reads比对结果;图10显示了根据本发明的实施例,CNV分析结果图;图11显示了根据本发明的实施例,样本2-1与正常人的DMD外显子测序深度图;以及图12显示了根据本发明的实施例,样本2-1DMDEX2-9delQPCR验证结果图。具体实施方式下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。在本发明的一个方面,本发明提供了一种同时检测基因点突变、插入/缺失和CNV的方法。根据本发明的实施例,该方法包括:根据目标区域的DNA序列,设计得到捕获芯片,所述捕获芯片包含多个探针,所述探针特异性识别所述目标区域;将所述捕获芯片与核酸样本文库进行杂交,以便捕获所述目标区域的DNA序列;对所述目标区域的DNA序列进行PCR扩增,以便获得扩增产物;将所述扩增产物进行测序,以便获得测序数据;对所述测序数据进行数据分析,以便获得基因点突变、插入/缺失和CNV检测结果。利用本发明的该方法,能够快速有效的一次性检测候选基因点突变、插入/缺失和CNV,针对致病基因检测时,基于基因点突变、插入/缺失和CNV检测结果,能够筛查高发严重单基因遗传病,确定夫妻双方以上致病基因的携带情况,评估后代的患病风险,达到降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。该方法不仅费用低、操作方便、且可以一次性检测700多个常见致病基因,检测效率较高。根据本发明的实施例,所述目标区域为表1所示基因的编码区及其向前后延伸30bp的区域。由此,通过检测表1所示基因的点突变、插入/缺失、CNV,基于表1所示基因的点突变、插入/缺失、CNV检测结果,能够有效用于孕前筛查单基因遗传病,实现降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。根据本发明的实施例,所述捕获探针可以通过本领域任何已知的方法设计获得,本领域技术人员可以根据需要灵活选择。根据本发明的一个具体示例,所述捕获探针是通过OligoArray2.1.3软件设计获得的。根据本发明的实施例,可以按照以下条件对设计获得的 探针进行筛选:GC含量(35%-65%),Tm值(85-90)和二级结构形成温度阈值(65)过滤;目标区域中的重复区域会降低探针的特异性,进而降低探针集的整体捕获效率。OligoArray软件通过-x参数(65)控制探针的特异性,软件将目标区域与全基因组进行blast比对,然后计算探针与非目标区域比对的序列间杂交的Tm值,当这些非特异杂交的Tm值都低于65时认为该探针是特异的。根据本发明的实施例,所述对所述测序数据进行数据分析包括:将所述测序数据与参考序列进行比对,并进行行化处理任务,以便获得比对结果;基于Picard的read去重复算法,对所述比对结果进行去重复处理,以便获得经过去重复处理的比对结果;基于GATK重比对模型将所述经过去重复处理的比对结果与所述参考序列进行重比对,以便获得重比对结果;基于并行化变异检测模块GaeaGenotyper,对所述重比对结果进行SNP和Indel检测;对所述重比对结果进行CNV检测。由此,能够同时检测基因的点突变、插入/缺失和CNV,当对致病基因进行检测时,基于检测结果,能够有效用于孕前筛查单基因遗传病,从而能偶降低出生缺陷、科学指导优生优育、提高人口出生质量。在本发明的另一方面,本发明提供了一种同时检测基因点突变、插入/缺失和CNV的设备。根据本发明的实施例,该设备包括:捕获芯片设计装置,所述捕获芯片设计装置用于根据目标区域的DNA序列,设计得到捕获芯片,所述芯片包含多个探针,所述探针特异性识别所述目标区域;捕获装置,所述捕获装置用于将所述捕获芯片与核酸样本文库进行杂交,以便捕获所述目标区域的DNA序列;扩增装置,所述扩增装置用于对所述目标区域的DNA序列进行PCR扩增,以便获得扩增产物;测序装置,所述测序装置用于将所述扩增产物进行测序,以便获得测序数据;数据分析装置,所述数据分析装置用于对所述测序数据进行数据分析,以便获得基因点突变、插入/缺失和CNV检测结果。利用本发明的设备,可以快速有效地同时检测基因点突变、插入/缺失和CNV,且成本低廉、操作简单,可有效用于单基因遗传病的筛查,从而能够达到降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。根据本发明的实施例,所述目标区域为表1所示基因的编码区及其向前后延伸30bp的区域。由此,通过检测表1所示基因的点突变、插入/缺失、CNV,基于表1所示基因的点突变、插入/缺失、CNV检测结果,能够有效用于筛查单基因遗传病,实现降低出生缺陷、科学指导优生优育、提高人口出生质量的目的。根据本发明的实施例,捕获探针设计装置可以为本领域常规的探针设计装置,本领域技术人员可以根据需要灵活选择。根据本发明的一个具体示例,捕获探针设计装置为OligoArray2.1.3软件。根据本发明的实施例,所述数据分析装置进一步包括:比对单元,所述比对单元用于 将所述测序数据与参考序列进行比对,并进行行化处理任务,以便获得比对结果;去重复单元,所述去重复单元用于基于Picard的read去重复算法,对所述比对结果进行去重复处理,以便获得经过去重复处理的比对结果;重比对单元,所述重比对单元用于基于GATK重比对模型将所述经过去重复处理的比对结果与所述参考序列进行重比对,以便获得重比对结果;SNP和Indel检测单元,所述SNP和Indel检测单元用于基于并行化变异检测模块GaeaGenotyper,对所述重比对结果进行SNP和Indel检测;CNV检测单元,所述CNV检测单元用于对所述重比对结果进行CNV检测。由此,能够同时检测基因的点突变、插入/缺失和CNV,当对致病基因进行检测时,基于检测结果,能够有效用于筛查单基因遗传病,从而能偶降低出生缺陷、科学指导优生优育、提高人口出生质量。一般方法1、基因检测芯片的设计从1600多个OMIM记录的隐性遗传病中,筛选出814种遗传病,其中绝大部分为儿童期发病,危害严重的隐性单基因遗传病,具体涉及737个基因,基因列表如下:表1.芯片基因及相关疾病注:PhenoMIM为相关疾病在OMIM中的表型ID;AD为常染色显性遗传,AR为常染色体隐性遗传,XL为X染色体连锁遗传,XD为X染色体显性遗传,XR为X染色体隐性遗传。根据人类基因组HG19,调取737个基因的参考序列,考虑到捕获区域的大小及成本,最终芯片只涉及了737个基因的编码区(CDS),并对各个CDS区域前后延伸30bp,以减少重组的影响。对于部分基因的特殊区域的常见致病变异相关序列(如HBB的启动子区域的常见致病突变),本芯片也已覆盖。芯片总计为2,978,151bp。目标区域捕获探针设计软件及参数:软件名称:OligoArray2.1.3(http://berry.engin.umich.edu/oligoarray2_1/)。使用参数:java-Xmx8000m-jarOligoArray2.jar-itarget.fa-dtarget.blastdb-otarget.oligo.fa-r target.reject.fa-Rtarget.log-n2-l75-L75-D10-t85-T90-s65-x65-p35-P65-N3-g1。参数说明:-i目标区域序列文件,-d目标区域序列BLAST比对数据库文件,-o设计探针序列文件,-r无法设计探针的区域序列,-R运行日志文件,-n针对每一段目标序列所选择的最大探针数,-l最小探针长度,-L最大探针长度,-D探针距离目标区域序列两端的距离,-t最小探针解链温度,-T最大探针解链温度,-s二级结构预测温度阈值,在此温度下能形成稳定二级结构的探针会被舍弃,-x交叉杂交解链温度阈值,小于此阈值的探针被舍弃,-p探针最小GC含量,-P探针最大GC含量,-N同时处理的序列数,-g相邻探针5'端的最小距离,由于该发明涉及的基因众多,以Krabbe病相关的GALC和beta-地中海贫血相关的基因区域为例,探针序列如下:2.检测流程采集受检者的外周血或唾液,进行目标区域捕获结合高通量测序,通过信息分析方法进行数据分析,可以同时检测候选基因的点突变和CNV,检测结果全面、准确。目标区域捕获结合高通量测序基本流程如图1所示。具体如下:采集备孕夫妇的外周血或唾液,提取基因组DNA,依照IlluminaHiseq2500建库手册进行文库构建、采用上述合成设计的芯片进行目标区域捕获,捕获到的目的DNA进行PCR富集后,按照常规测序方法进行高通量测序,如Hiseq2500、Hiseq2000等等,根据测序量的不同和样本数,可以灵活选择合适的测序平台。测序结果采用BGI自主开发的GaeaGenotyper流程和batCNV流程分别对点突变、小的插入缺失和单个外显子水平(且>130bp)以上的拷贝数变异进行检测,测序结果分析流程如图2所示,具体如下:1、从测序仪获取原始数据(FASTQ数据)。2、过滤:对原始FASTQ数据进行质量控制,去除常规所说的低质量值数据。3、比对:利用SOAP软件及其默认参数设置,使用Hg19参考序列进行比对,并行化处理任务。4、去重复:基于Picard的read去重复算法,并行化地从比对结果中找出重复read并以SAM/BAM文件的tag方式进行标记。5、重比对:使用基于GATK重比对模型,进行重比对。即,在上一比对结果的基础上,对INDEL附近的所有reads进行局部重新比对,以消除比对的错误,提高变异检测的准确率。6、检测SNV、INDEL:使用在GATKUnifiedGenotyper基础上开发的基于Hadoop平台的并行化变异检测模块GaeaGenotyper,同时进行SNP和Indel的检测。7、检测CNV:通过对测序深度进行GC修正和批次修正,去掉PCR不均匀和捕获测序不均匀的影响,然后利用隐马模型对数据进行检测,识别出深度发生变化的区域,设置合适的过滤参数过滤后输出CNV。另外,针对某些特殊基因,如F8、CYP21A2、HBA1/HBA2和SMN1,限于高通量测序技术的局限性,需要补充传统实验或进行实验复核,以保证这些基因检出的准确性。实施例1选取1对生育过患儿但本身表型正常的受检夫妇(例1-1:女,例1-2:男)和1例表 型正常的育龄妇女(例2-1),抽取外周血,具体操作步骤如下:1、用盐析法提取标本DNA,大片段DNA进行超声打断,打断条件为:强度H时间(s)5min循环数62、建库2.1末端修复和纯化加入50μL,反应体积:150μL/管,反应条件:20℃,30min,用大柱子纯化,最终溶解在84μL水中(42μL溶两次),吸取82μL。2.2加“A”和纯化试剂名称单管用量(μL)上一步的DNA8210×Blue缓冲液10dATP(5mM)2Klenow3’-5’exo-6加入18μL,反应体积:100μL/管,反应条件:37℃,30min用大柱子纯化,最终溶解在48μL水中(24μL溶两次),吸取44μL。2.3接头连接,加接头和磁珠纯化试剂名称单管用量(μL)上一步加A后纯化产物442x连接缓冲液50IndexPE接头(20μM)1T4DNA连接酶5加入56μL,反应体积:100μL/管,反应条件:20℃,15min。3、PCR扩增,使每一个加接头的片段放大扩增试剂名称单管用量μL)上一步的产物71标签(10μM)510×Pfx放大缓冲10dNTP(10mM)4MgSO4(50mM)4IndexP1(10μM公用引物)5PlatinumPfxDNA聚合酶(2.5U)1PCR程序:4、芯片杂交,目标区域捕获富集利用一般方法中所得到的基因检测芯片,参照Agilent使用说明书进行杂交洗脱,获取目的基因并PCR富集。5、上机测序和信息分析本实验采用hiseq2000PE101+8+101程序进行上机测序。6、补充实验本检测流程中涉及四种传统的实验方法,对于高通量测序有局限的变异进行检测,如下表所示:(具体操作方法同孕前12种常见遗传病基因检测)基因检测方法检测变异F8LongPCR1号内含子倒位;22号内含子倒位CYP21A2Sanger测序编码区点突变、小的插入/缺失HBA1/HBA2GapPCR--SEA、-α3.7、-α4.2、--FIL、--THAISMN1QPCR7号外显子缺失7、信息分析对上述得到的测序数据进行信息分析,分析流程如图2所示,具体步骤如下:7.1从测序仪获取原始数据(FASTQ数据):初步评估数据质量,查看测序的质量是否满足要求,要求%PF>80%;Q2090cycle>=83,100cycle>=80;错误率90cycle<=2,100cycle<=2。评估结果见图3-6。图3显示了插入片段的大小和分布情况,其中如果插入片段的大小比较离散,浓度比较低,应从实验的角度分析问题,比如DNA是否降解,DNA打断是否有问题,PCR扩增是否成功等等。图4显示了测序数据的质量分布情况,图5显示了单个碱基的平均测序错误率,从该两图可以查看样本测序的整体质量,一般来说,一条reads的测序质量一般是前半段的错误率比较低,后半段相对较高,总的ErrorRate不高于1%比较好。图6显示了reads的GC(AT)含量分布情况,由于PCR扩增的偏好性,可能会有些小的差异,另外由于样本的DNA降解等多种问题,也可能使得GC含量比较弥散、GC含量与AT含量相差较大。7.2过滤:对原始FASTQ数据进行质量控制,去除常规所说的低质量值数据(去掉basequality低于10的base达到整个reads的50%,或者base为N的达到整个reads的10%的低质量reads)。7.3比对:利用SOAP软件及其默认参数设置,使用Hg19参考序列进行比对,并行化处理任务。7.4去重复:基于Picard的read去重复算法,并行化地从比对结果中找出重复read并以SAM/BAM文件的tag方式进行标记。7.5重比对:使用基于GATK重比对模型,进行重比对。即,在上一比对结果的基础上,对INDEL附近的所有reads进行局部重新比对,以消除比对的错误,提高变异检测的准确率。7.6检测SNV、INDEL:使用在GATKUnifiedGenotyper基础上开发的基于Hadoop平台的并行化变异检测模块GaeaGenotyper,同时进行SNP和Indel的检测。7.7检测CNV:通过对测序深度进行GC修正和批次修正,去掉PCR不均匀和捕获测序不均匀的影响,然后利用隐马模型对数据进行检测,识别出深度发生变化的区域,设置合适的过滤参数过滤后输出CNV,该过程称为BatCNV分析。7.8注释:使用人类基因组数据库NCBI104,频率数据库dbSNP135、1000human、ESP6500,以及BGI内部频率数据库进行注释;使用HGVS对变异进行标准命名,同时使用OMIM、HGMD疾病数据库,CGD临床基因组数据库进行突变及疾病注释,得到注释结果文件。8、信息分析后质控信息分析处理后,得到质控文件(如表2)和注释结果。质控结果显示,芯片的捕获效率>64%,样本在目标捕获区域去除duplicationreads之后平均测序深度大于200×,目标区域10×以上覆盖率均大于98.8%。质控数据表明本芯片性能良好。表29.数据解读流程见图7。具体地,获得样本注释结果后,首先根据筛选条件对突变集进行筛选,得到可信的、罕见的和有可能对蛋白产生影响的突变,形成候选突变集,对于候选突变,进行reads比对,确保突变真实可信,然后进行文献查阅,根据报道情况,确定突变的临床意义,撰写突变详情。获得样本的BatCNV文件后,经过分析得到CNV候选突变,查看其对应基因的外显子测序深度图,如果结果相符,对于缺失的外显子安排QPCR验证,验证属实后,进行文献查阅,根据报道情况,确定突变的临床意义,撰写突变详情。在例1生育过遗传病患儿的夫妻中,检测到双方各携带1个同一常染色体隐性遗传病基因TYR的突变c.925_926insC和c.1199G>T,分别做reads图确认突变为真(图8显示了TYR基因c.925_926insC突变的正链Reads比对结果,图9显示了TYR基因c.1199G>T突变的正链Reads比对结果)。通过查阅文献,得到解读结果:TYR基因的c.925_926insC突变为移码突变,导致该基因编码的酪氨酸酶在317位氨基酸处提前终止(原蛋白肽链长529个氨基酸),产生截短蛋白或降解,影响蛋白功能;该 突变在dbSNP和千人数据库中的频率皆为0;该突变没有文献报道,但有多个发生在该基因上的其他功能缺失突变致病的案例报道;由此推测该突变为疑似致病突变。TYR基因的c.1199G>T是一个错义突变;根据文献报道,在对亚洲12例没有亲缘关系的眼皮肤白化病I型(OCA1)患者的TYR基因的研究中,在3条等位基因上发现了该突变,在100例正常对照中没有发现该突变;另据文献报道,在对中国8例眼皮肤白化病I型(OCA1)患者的TYR基因的研究中,在5例患者中发现了该突变c.1199G>T(p.W400L)的复合杂合突变(另一突变分别为,IVS1-3C>G,p.R77Q,p.R116X,p.R299,c.929ins),且根据家系分析,5例患者的突变分别遗传自其父母,复合隐性遗传方式;在本次研究中,该突变的出现频率为5/16,为频率最高的突变,文章据此推测p.W400L是华人OCA患者中常见的突变;因此,该突变为已知致病突变。上述解读结果可以解释受检夫妻生育过一个白化病患儿的临床事实,可以对其后续的生育计划进行指导。在例2中,育龄妇女中,检测到X连锁隐性遗传的DMD基因CNV突变,其BatCNV分析结果如图10所示),后经深度图和QPCR验证,检测结果为真(例2与正常人的DMD外显子测序深度图见图11,例2DMDEX2-9delQPCR验证结果见图12)。通过查阅文献,得到解读结果:DMD基因的EX2-9del为大片段缺失突变,会导致该基因编码的蛋白截短或降解,该突变有多篇文献报道,曾在多名进行性肌营养不良患者中检出;因此,该突变为已知致病突变。上述解读结果提示受检女性有生育DMD患儿的风险,可以对其后续的生育计划进行指导。检测结果总结如下表3。表3实施例2按照实施例1的方法,对53例表型正常样本(包括正常育龄样本,或有不良妊娠史的样本)进行基因检测,结果如表4所示。从结果可以看出,53例样本中有45例样本(85%)至少携带1个致病或可能致病突变,人均突变携带率为1.75个致病突变或疑似致病突变,其中3对夫妻携带同一个基因上的致病或可能致病突变,2例女性受检者携带X连锁遗传5致病或疑似致病突变,即5对夫妇有生育遗传病患儿的风险。本数据表明,本发明可以用于筛查育龄夫妇遗传缺陷携带情况,对于防止遗传病患儿出生有一定的指导意义。表4采用本方法对53例表型正常样本进行筛查的结果在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1