一种基于家系的外显子组潜在致病变异检测方法

文档序号:10565479阅读:658来源:国知局
一种基于家系的外显子组潜在致病变异检测方法
【专利摘要】本发明提供了一种基于家系的外显子组潜在致病变异检测方法,1)读取外显子组测序数据处理流程的结果文件,进行功能过滤;2)读取上一步得到的文件,提取所有样本中的变异,求取并集,然后合并所有样本,构成矩阵;3)在上一步得到的矩阵中提取变异信息进行枚举,评估单个变异和组合双位点变异的致病性,得到潜在致病变异列表;4)针对上一步得到的列表,统计位点在各个样本、目标基因中的出现情况。本发明以常见外显子组测序流程处理的输出结果为输入条件,完成数据的整合和基本过滤,通过特效变异筛选算法,给出潜在致病变异的候选集,重解决了高异质性、高突变率、高噪声的测序数据潜在致病变异挖掘问题。
【专利说明】
一种基于家系的外显子组潜在致病变异检测方法
技术领域
[0001]本发明属于基因信息数据处理领域,特别是涉及到一种基于家系的外显子组潜在致病变异检测方法。
【背景技术】
[0002]外显子测序技术已十分成熟,应用该技术检测致病变异的研究数量众多。因此,检测致病变异的算法层出不穷。通常,一次平均测序深度低到20的全外显子组测序就可以为每个样本测得5万个变异位点,如何从这些变异中筛选出真正的为数极少的致病变异是这些算法共同面对的问题。
[0003]过去,人们通过变异在病例或对照样本中共享的程度,来缩小致病变异的搜索空间。对于无关人群,这几乎是唯一的过滤手段。为此,家系信息对遗传疾病的研究提供了重要线索,人们构建了多种遗传模型做进一步筛选,使得基于家系的遗传变异筛选算法显著地降低了致病变异的搜索空间。例如,Kamphans等提出了组合杂合遗传模型的变异筛选准则,Koboldt等提出了显性遗传的变异筛选准则,都能将致病变异定位到极少的候选集中,使得实验验证成为可能。如今,VASP算法的提出更是集成了多种变异筛选准则,能够不针对特定遗传模型,对变异进行筛选。
[0004]然而,通用算法并不一定最适合特定的具体模型,甚至在复杂遗传机制下不适用。例如,gene-talk是针对常染色体隐性遗传病的变异筛选算法,它甚至考虑了组合变异位点致病的遗传模式。然而,该方法要求潜在致病变异在所有病例中均出现。这就使得该方法并不能很好地适用于高异质性、高突变率的遗传疾病致病研究。此外,测序深度低带来的噪声也是影响算法精度的重要因素,而且在目前的科研领域内普遍存在。

【发明内容】

[0005]有鉴于此,本发明提出一种基于家系的外显子组潜在致病变异检测方法,着重解决高异质性、高突变率、高噪声的测序数据潜在致病变异挖掘问题。
[0006]为达到上述目的,本发明的技术方案是这样实现的:一种基于家系的外显子组潜在致病变异检测方法,包括以下步骤:
[0007]I)读取外显子组测序数据处理流程的结果文件,将每个样本的变异vcf文件和ANN0VAR注释文件合并,进行功能过滤,得到初步整合文件,每个样本按变异类型分为SNP和INDEL两个文件;
[0008]2)读取上一步得到的文件,提取所有样本中的变异,求取并集,然后合并所有样本,构成矩阵;
[0009]3)在上一步得到的矩阵中提取变异信息进行枚举,评估单个变异和组合双位点变异的致病性,得到潜在致病变异列表;
[0010]4)针对上一步得到的列表,统计位点在各个样本、目标基因中的出现情况。
[0011]进一步的,步骤I)所述功能过滤的方法为:
[0012]101)UTR区域变异的人群频率不大于0.01,所述人群频率包括千人基因组计划人群和外显子组工程人群;
[0013]102)移码变异、终止位点变异、剪切区域变异的人群频率不大于0.05;
[0014]103)非同义突变变异人群频率不大于0.05,且满足如下条件中的一个:SIFT预测评分不大于0.05,PolyPhen2-HVAR评分不小于0.909,PolyPhen2_HDIV评分不小于0.959,CADD phred评分不小于10;
[0015]104)其余变异去除。
[0016]进一步的,步骤2)的方法为:
[0017]201)针对SNP或INDEL分别合并样本、分割注释,得到样本-基因型矩阵,样本-变异频率矩阵,样本-测序深度矩阵,其余各个样本的注释取并集整合为一个合并的注释矩阵;
[0018]202)拼接SNP矩阵和INDEL矩阵完成数据整合。
[0019]进一步的,步骤3)实施的步骤为:
[0020]301)筛选罕见变异作为候选变异;
[0021]302)筛选功能变异作为候选变异;
[0022 ] 303)在病例中选择候选集,在对照中筛选过滤;
[0023]304)针对数据噪声,变异位点的的支持序列数不小于指定阈值,以保证变异的真实性,同时适应低测序深度数据;
[0024]305)比对父母与子女的变异位点,用以确定患病子女位点的遗传特点。
[0025]进一步的,步骤4)的统计结果通过图表展示。
[0026]相对于现有技术,本发明所述的一种基于家系的外显子组潜在致病变异检测方法具有以下优势:
[0027]本发明承接外显子组测序流程处理,输出潜在致病变异候选集,完成致病变异挖掘工作中重要的一环。本发明以常见外显子组测序流程处理的输出结果为输入条件,完成数据的整合和基本过滤,通过针对高异质性、高突变率、高噪声的测序数据的特效变异筛选算法,给出潜在致病变异的候选集,重解决了高异质性、高突变率、高噪声的测序数据潜在致病变异挖掘问题。
【附图说明】
[0028]构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0029]图1为本发明的流程示意图。
[0030]图2为本发明的变异筛选流程示意图。
【具体实施方式】
[0031]需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
[0032]下面将参考附图并结合实施例来详细说明本发明。
[0033]如图1所示,本发明主要包含4个步骤:
[0034](I)读取外显子组测序数据处理流程的结果文件,将每个样本的变异vcf文件和ANNOVAR注释文件合并,进行功能过滤,得到初步整合文件,每个样本按变异类型分为SNP和INDEL两个文件;
[0035]其中,ANNOVAR注释结果文件必须由名称对应的vcf文件作为输入,用ANNOVAR注释得到,为一个表格,每行记录一个变异,每列记录一项注释,包含且只能包含如下列:
[0036]Chr
[0037]Start
[0038]End
[0039]Ref
[0040]Alt
[0041 ]phastConsElements46way
[0042]Func.refGene
[0043]Gene.refGene
[0044]GeneDetail.refGene
[0045]ExonicFunc.refGene
[0046]AAChange.refGene
[0047]cytoBand
[0048]genomicSuperDups
[0049]esp6500siv2—all
[0050]1000g2014oct—all
[0051]snpl38
[0052]SIFT—score
[0053]SIFT—pred
[0054]Polyphen2—HDIV—score
[0055]Polyphen2_HDIV_pred
[0056]Polyphen2_HVAR_score
[0057]Polyphen2_HVAR_pred
[0058]LRT_score
[0059]LRT_pred
[0060]Mutat1nTaster—score[0061 ]Mutat1nTaster_pred
[0062]Mutat1nAssessor—score
[0063]Mutat1nAssessor—pred
[0064]FATHMM—score
[0065]FATHMM—pred
[0066 ]Radi aISVM_score
[0067]RadialSVM_pred
[0068]LR—score
[0069]LR—pred
[0070]VEST3—score[0071 ] CADD_raw
[0072]CADD_phred
[0073]GERP++_RS
[0074]phyloP46way_placental
[0075]phyloP100way_vertebrate
[0076](2)以上述文件为输入,首先针对SNP或INDEL分别合并样本、分割注释,得到样本-基因型矩阵,样本-变异频率矩阵,样本-测序深度矩阵,其余各个样本的注释取并集整合为一个合并的注释矩阵;其次,拼接SNP矩阵和INDEL矩阵完成数据整合;
[0077]详细说明:提取所有样本中的变异,求取并集,然后合并所有样本,合并SNP和INDEL构成多个每行一个变异,每列一个样本的注释矩阵,矩阵G表示基因型矩阵,包含4个元素,0/0表示纯合无突变,0/1表示杂合突变,1/1表示纯合突变,NA表示未检测出变异;矩阵Q表示变异频率矩阵,为O?I的浮点数,矩阵D表示测序深度矩阵,为整数;其余注释信息只与变异位点有关,与样本无关,汇总记录为矩阵A,每行为一个变异,每列为一项注释,挑选16个比较关键的注释项,列表如下:
[0078]Chr
[0079]Start
[0080]Ref
[0081]Alt
[0082]Func.refGene
[0083]Gene.refGene
[0084]ExonicFunc.refGene
[0085]esp6500siv2_all
[0086]1000g2014oct_all
[0087]SIFT_score
[0088]SIFT_pred
[0089]Polyphen2_HDIV_score
[0090]Polyphen2_HDIV_pred
[0091]Polyphen2_HVAR_score
[0092]Polyphen2_HVAR_pred
[0093]CADD_phred
[0094](3)采用筛选潜在致病变异算法,在上述矩阵中提取变异信息进行枚举,评估单个变异和组合双位点变异的致病性,得到潜在致病变异列表;
[0095]具体说明:枚举每个基因上出现的所有单个变异位点和2位点组合,根据其注释评估变异(组合)的致病性,因此需要上一步的结果作为输入参数;此外,程序需要读入家系信息和病例/对照信息作为输入参数2,该信息可以3行数值矩阵表示,第一行为父亲ID(没有记为O),第二行为母亲ID,第三行为病例(I)或对照(O),每列对应一个样本,例如:
[0096]O O I
[0097]0 0 2
[0098]O O I
[0099]表示一个三口之家,前两列是健康的父母,第三列为患者。
[0100](4)针对上述列表,统计位点在各个样本、目标基因中的出现情况,进行图表展示。
[0101]具体说明:统计上述位点在各个样本、目标基因中的出现情况,读入注释矩阵和位点列表,统计每个样本出现的潜在致病位点;统计变异位点在指定基因中的出现情况。
[0102]上述步骤中,步骤(3)采用的筛选潜在致病变异算法,实际上就是一套过滤准则的组合,针对不同的遗传模型,不同水平的数据,需要采取适当的准则。本发明针对高异质性、高突变率、高噪声的常染色体隐性遗传病病例对照家系数据设计算法,流程参见图2,详细说明如下:
[0103]首先,筛选罕见变异作为候选变异。通常,罕见疾病有一个很低的发病率,这使得人群中携带致病变异的频率不会很高。对于显性致病的变异,人群携带率和发病率理论上是相等的,对于常染色体隐性致病的变异,人群携带率在随机的情况下也只是发病率的平方根。针对这一假设,我们可以设置阈值限制变异位点的人群频率,以符合疾病的发病率。人们通常以5%或I %作为罕见变异的阈值。
[0104]其次,筛选功能变异作为候选变异。通常,人们认为变异位点影响到蛋白质功能,才能引发疾病。为此,变异的功能类型(Consequence)是首要考虑对象。按变异对蛋白质的影响程度,可以首要考虑 nonsynonymous SNV, frameshif t Indel, stopgain/stop loss 和splicing event。此外,变异功能预测评分也可以作为考虑对象。常用变异功能预测评分包括SIFT和PolyPhen,近期CADD可以预测全基因组所有可能变异的功能有害性。考虑到多个功能预测评分的预测结果并不完全一致,我们采用3个有害性预测的并集作为变异筛选准贝IJ,既能缩小致病变异的候选集,亦不会过度筛掉致病变异。
[0105]第三,在病例中选择候选集,在对照中筛选过滤。通常的病例对照分析会考虑病例中都出现的变异位点。针对疾病的高异质性,本软件采用所有病例中出现的变异位点的并集作为候选集,同时用对照集过滤。显然,本软件提供的候选集比较大。
[0106]第四,针对数据噪声,本软件设计变异位点的的支持序列数不小于指定阈值,以保证变异的真实性,同时适应低测序深度数据。
[0107]最后,比对父母与子女的变异位点,用以确定患病子女位点的遗传特点。针对常染色体隐性遗传,可能致病的单个位点可推断出纯合遗传、杂合遗传、杂合突变、纯合突变的情况,可能致病的双位点组合,可推断出遗传杂合组合、半遗传杂合组合和突变杂合组合。对于没有高突变特点的疾病,只需考虑遗传位点,对于高突变疾病,需要全部考虑。
[0108]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于家系的外显子组潜在致病变异检测方法,其特征在于,包括以下步骤: 1)读取外显子组测序数据处理流程的结果文件,将每个样本的变异VCf文件和ANNOVAR注释文件合并,进行功能过滤,得到初步整合文件,每个样本按变异类型分为SNP和INDEL两个文件; 2)读取上一步得到的文件,提取所有样本中的变异,求取并集,然后合并所有样本,构成矩阵; 3)在上一步得到的矩阵中提取变异信息进行枚举,评估单个变异和组合双位点变异的致病性,得到潜在致病变异列表; 4)针对上一步得到的列表,统计位点在各个样本、目标基因中的出现情况。2.根据权利要求1所述的一种基于家系的外显子组潜在致病变异检测方法,其特征在于,步骤I)所述功能过滤的方法为: 101)UTR区域变异的人群频率不大于0.01,所述人群频率包括千人基因组计划人群和外显子组工程人群; 102)移码变异、终止位点变异、剪切区域变异的人群频率不大于0.05; 103)非同义突变变异人群频率不大于0.05,且满足如下条件中的一个:SIFT预测评分不大于0.05,PolyPhen2-HVAR评分不小于0.909,PolyPhen2_HDIV评分不小于0.959,CADDphred评分不小于10; 104)其余变异去除。3.根据权利要求1所述的一种基于家系的外显子组潜在致病变异检测方法,其特征在于,步骤2)的方法为: 201)针对SNP或INDEL分别合并样本、分割注释,得到样本-基因型矩阵,样本-变异频率矩阵,样本-测序深度矩阵,其余各个样本的注释取并集整合为一个合并的注释矩阵; 202)拼接SNP矩阵和INDEL矩阵完成数据整合。4.根据权利要求1所述的一种基于家系的外显子组潜在致病变异检测方法,其特征在于,步骤3)实施的步骤为: 301)筛选罕见变异作为候选变异; 302)筛选功能变异作为候选变异; 303)在病例中选择候选集,在对照中筛选过滤; 304)针对数据噪声,变异位点的的支持序列数不小于指定阈值,以保证变异的真实性,同时适应低测序深度数据; 305)比对父母与子女的变异位点,用以确定患病子女位点的遗传特点。5.根据权利要求1所述的一种基于家系的外显子组潜在致病变异检测方法,其特征在于,步骤4)的统计结果通过图表展示。
【文档编号】G06F19/24GK105925685SQ201610318270
【公开日】2016年9月7日
【申请日】2016年5月13日
【发明人】薛成海, 李连硕, 关晋霞, 吕艳玲
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1