易感基因型检测方法与流程

文档序号：12035018阅读：752来源：国知局

本发明涉及生物信息、计算机、医学及基因学技术领域，尤其涉及一种易感基因型检测方法。

背景技术：

i型神经纤维瘤(英文：neurofibromatosistypei，缩写：nf1)的形成与nf1基因蛋白的表达缺失有关，以多发性咖啡牛奶斑、腋窝或腹股沟斑点、多发性皮肤纤维瘤和虹膜lisch结节为特征。该疾病的外显率为100％、患病率约1/3000，其中30％～50％的病例为自发突变所致，是人类突变率最高的疾病之一。

i型神经纤维瘤的突变率高是由于nf1基因的突变率高，约50％的患者是新突变，且贯穿整个nf1基因。

近年来研究多集中在探索nf1基因的突变热点，但是该研究方向迫切需要快速分析和寻找突变位点的方法。随着生物信息技术的发展，大量的测序数据出现，生物信息的研究也进入了大数据时代。针对大数据分析，需要多个学科人才和多种软件上的衔接和操作，而且操作流程繁琐。目前并没有可以利用生物信息学及大数据分析的高效地分析待检测样本中是否存在i型神经纤维瘤基因的突变位点的方法，无法使寻找nf1突变位点的过程实现自动化。

技术实现要素：

为解决上述问题，本发明提供一种易感基因型检测方法，可以高效地检测出待检测样本中是否存在待检测的基因突变位点，为疾病的临床诊断及产前筛查提供指导。

为实现上述目的，本发明的一种易感基因型检测方法，包括以下步骤：

s1、采集待检测样本，捕获待检测样本的外显子区域序列，构成原始测序数据；

s2、逐一对原始测序数据中的各个序列进行质量检测，根据质量检测的结果，获得符合质量要求的序列，构成初步调整数据；

s3、将初步调整数据中的各个序列与参考基因组序列进行比对，获得比对结果，构成变异检测数据；

s4、对变异检测数据中的各个序列进行变异检测分析，确定变异检测数据中的具有突变基因的基因序列和突变基因对应的突变位点；

s5、对突变位点进行功能性注释，并确定待检测样本中是否包含待检测的易感基因型。

进一步地，待检测的易感基因型为i型神经纤维瘤易感基因型，包括i型神经纤维瘤基因中rs1801052为aa的基因型和rs1129506为aa的基因型。

进一步地，待检测样本为患者体细胞的全外显子组序列。

进一步地，还包括：当确定待检测样本中包含待检测的易感基因型时，根据患者直系亲属的体细胞的全外显子组序列，验证对待检测样本的检测结果。

进一步地，还包括，对已进行功能性注释的带有突变基因的基因序列进行附加检测，获得变异有害性、候选基因、蛋白质突变中的一个或者多个相关检测结果。

进一步地，还包括，对原始测序数据中的各个序列进行质量检测前，先去除各序列的序列接头。

进一步地，原始测序数据中符合质量要求的序列包括含n低于5％，并且碱基质量值高于30的比例(q30)在80％以上的序列。

进一步地，变异检测分析包括单核苷酸多态性检测、插入及缺失检测和拷贝数变异检测。

进一步地，功能性注释的注释位置包括突变位点的基因区、基因区间和非翻译区。

进一步地，还包括：根据步骤s2-s5的结果分别汇总质量数据报告、对比数据报告、突变数据报告和突变功能评估报告，并根据质量数据报告、对比数据报告、突变数据报告和突变功能评估报告输出易感基因型检测结果报告。

本发明的易感基因型检测方法，通过运用准确高效的生物信息学分析方法，完成从原始基因数据到突变基因的突变位点检测的管道式流程，提高了对待检测样本的突变位点检测分析的效率，降低易感基因型检测的成本。本发明的易感基因型检测方法可植入性强，不但可以作为独立的i型神经纤维瘤易感基因型检测分析方法进行检测，也可植入到其他的分析流程中，作为其他分析流程中的检测部分，并且还可以用于对其他疾病的突变位点进行检测，为疾病的数据挖掘提供准确的资源。

附图说明

图1为本发明的易感基因型检测方法的流程图。

具体实施方式

下面，结合附图，对本发明的结构以及工作原理等作进一步的说明。

如图1所示，本发明的一种易感基因型检测方法，包括以下步骤：

s1、采集待检测样本，捕获待检测样本的外显子区域序列，构成原始测序数据。

s2、逐一对原始测序数据中的各个序列进行质量检测，根据质量检测的结果，获得符合质量要求的序列，构成初步调整数据。

在本发明实施例中，对基因序列进行质量检测可以调用下述的任一种生物信息学软件：fastqc、cutadapt、fastx-toolkit、bbmap。

具体地，可以通过调用生物信息学软件，对原始测序数据中的各个序列进行质量检测，进行适当的筛选和修整，包括：剔除含n高于5％的基因序列；删减质量值低于30的比例高于20％的序列，使其质量值符合要求。在本发明实施例中，原始测序数据中符合质量要求的序列包括含n低于5％，并且碱基质量值高于30的比例(q30)在80％以上的序列，而初步调整数据仅由符合质量要求的序列构成。

在本发明实施例中，对原始测序数据中的各个基因序列进行质量检测前，应先去除各序列的序列接头，其中，序列接头即为每段序列的样本标签。

s3、将初步调整数据中的各个序列与参考基因组序列进行比对，获得比对结果，构成变异检测数据。

在本发明实施例中，将初步调整数据中的各个基因序列与参考基因组序列进行对比可以调用下述的任一种生物信息学软件：bwa、samtools、picard、gatk、qualimap、igv、r。

具体地，为了得到更准确的对比结果，在初步调整数据中的各个序列与参考基因组序列进行比对，根据各个序列与参考基于组序列的比对结果，将初步调整数据中与参考基于组序列相同部位的重复序列删除，防止出现冗余数据，并且，将删除了冗余数据后的无重复序列的序列重新进行碱基质量分数校准，并获得最终的变异检测数据，为变异检测分析步骤提供原材料。

s4、对变异检测数据中的各个序列进行变异检测分析，确定变异检测数据中的具有突变基因的基因序列和突变基因对应的突变位点。

在本发明实施例中，对变异检测数据中的各个基因序列进行变异检测分析可以调用下述的任一种生物信息学软件：gatk、bedtools、vcftools、bcftools，变异检测分析可以进行单核苷酸多态性检测、插入及缺失检测和拷贝数变异检测。

具体地，可以调用相应的生物信息学软件，对变异检测数据中的各个序列进行单核苷酸多态性检测、插入及缺失检测和拷贝数变异检测，找出基因突变位点，并且同时检测出突变类型。

s5、对突变位点进行功能性注释，并确定待检测样本中是否包含待检测的易感基因型。

在本发明实施例中，对突变位点进行功能性注释可以调用下述的任一种生物信息学软件：annovar、snpeff、snpsift。其中，注释数据库主要包括：refgene、cytoband、gwascatalog、clinvar、dbsnp138等。

具体地，可以通过调用所述生物信息学软件，对突变位点的基因区、基因区间和非翻译区等位置进行功能性注释，若功能性注释后的结果发现与待检测的易感基因型吻合，则确定待检测样本中包含待检测的易感基因型突变位点。

在本发明实施例中，待检测的易感基因型为i型神经纤维瘤易感基因型，包括i型神经纤维瘤基因中rs1801052为aa的基因型和rs1129506为aa的基因型，即当检测出待检测样本中包含这两个基因型中的任意一个时，即可认为该待检测样本中存在存在i型神经纤维瘤高危突变位点，待检测样本所属的患者为可能患有i型神经纤维瘤的高危人群。

在本发明另一实施例中，当确定待检测样本中包含待检测的易感基因型时，还可以根据患者直系亲属的全外显子基因组序列，验证对待检测样本的检测结果，由于是采用直系亲属的基因序列检测，因此，可以从遗传学的角度提升检测结果的准确性。

在本发明另一个实施例中，还可以对已进行功能性注释的带有突变基因的基因序列进行附加检测，获得变异有害性、候选基因、蛋白质突变中的一个或者多个相关检测结果。具体地，可以根据用户的要求，调用相应的生物信息学软件，完成相应的分析，并输出相应的结果。

附加检测至少包括：

变异有害性分析，可以根据各个突变对基因功能的影响，做出相应的有害性排序；

候选基因与疾病相关性排序，可以依赖数据库注释结果，评价各个突变对相应疾病的影响，特别是对nf1疾病的影响结果；

候选基因功能注释；

候选基因功能富集分析，可以通过调用功能注释和自带脚本库完成候选基因的检测和筛选，同时对筛选出的高可信度的基因进行生物体功能通路的还原。

蛋白突变预测，可以由预测得到的蛋白质一级结构的变化预测对三维空间结构的影响。

在本发明另一实施例中，根据步骤s2-s5的结果还可以分别汇总质量数据报告、对比数据报告、突变数据报告和突变功能评估报告，并根据质量数据报告、对比数据报告、突变数据报告和突变功能评估报告输出易感基因型检测结果报告。

其中，在对原始基因数据中的各个基因序列进行质量检测的同时，评估修整后的数据在质量上是否满足进行后续分析流程的要求，以获得质量数据报告，质量数据报告中主要包括测序片段的碱基质量分布、测序片段中四种碱基含量分布、测序片段的gc含量等内容；在将初步调整数据中的各个基因序列与参考基因组序列进行对的同时，可以得到相应的测序分析结果，以获得对比数据报告，对比数据报告包括比对率统计结果，外显子覆盖深度及分布、外显子区域捕获特异性评估、插入片段分布统计结果等，用于评估测序实验的成果与否，关系到后续突变位点检测结果的可靠性；在变异检测数据中的各个基因序列进行变异检测分析后，可以对找出的基因突变位点进行统计，绘制相应的韦恩图，以获得突变数据报告；对突变位点进行功能性注释后，根据功能性注释结果，获得突变功能评估报告。

最后，将质量数据报告、对比数据报告、突变数据报告和突变功能评估报告整合成书面报告和数据文档，输出附带专业注释的易感基因型检测结果报告，将最终分析结果展示给用户，并且也可以进行数据存储备份。

根据本发明的一个实施例，可以采用本发明的易感基因型检测方法检测某一患者是否具有i型神经纤维瘤的易感基因型，其检测方法主要包括：基因组dna样本制备、文库构建、质量检测、比对分析、变异检测、功能注释、高级信息分析和分析报告输出等步骤。

首先，将待检测样本的基因组dna随机打断成150～200bp的片段，制备出待检测样本的多段序列，然后用制备好的待检测样本的多段序列构建文库，文库序列通过与外显子区域特异的生物素标记dna探针杂交，通过带有捕获探针功能的磁珠进行捕获，最终将捕获到的序列从磁珠上洗脱下来，获得目的区域的序列片段。具体捕获过程参照：sureselectxttargetenrichmentsystemforilluminapaired-endsequencinglibrary、illuminahiseqandmiseqmultiplexedsequencingplatforms，protocolversion1.3.1，february2012。

由于易感基因型能够作为在基因层次上疾病诊断有力的证据，更能作为产前筛查手段达到疾病预防的目的。因此，将待检测样本的外显子组序列制备好后，可按照本发明的易感基因型检测方法进行i型神经纤维瘤的易感基因型检测，完成质量检测、比对分析、变异检测、功能注释、高级信息分析和分析报告输出等步骤。具体地，原始测序数据经过数据质量检测，生成质量数据报告，并同时去除基因序列的序列接头、过滤含n高于5％的序列和过滤碱基质量值低于30比例超过20％的序列。对经过质量检测处理后得到的初步调整数据进行比对分析，与参考基因组序列进行比对，生成对比数据报告。对经过比对分析处理后得到的变异检测数据进行变异检测分析，进行单核苷酸多态性、插入及缺失和拷贝数变异等突变检测。对检测到的突变位点进行功能性注释，以此对突变位点进行功能评估。最终在患者的nf1基因上鉴定到了rs1801052的基因型为aa和rs1129506的基因型为aa，认为该待检测样本中存在i型神经纤维瘤的高危突变位点，该患者很有可能患有i型神经纤维瘤。最后，通过参考父亲和/或母亲的全外显子测序数据进行验证，从而增加检测结果的准确性及可靠性。

以上，仅为本发明的示意性描述，本领域技术人员应该知道，在不偏离本发明的工作原理的基础上，可以对本发明作出多种改进，这均属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴小龙;黄宇
技术所有人：中国科学院上海药物研究所
我是此专利的发明人

上一篇：基于基因突变与基因表达的药物重定位方法与流程
上一篇：一种配对互作基因检测方法及预测模型与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。