一种基因变异评估方法及系统与流程

文档序号:11177599阅读:620来源:国知局
一种基因变异评估方法及系统与流程

本发明属于生物信息学领域,尤其涉及一种基因变异评估方法及系统。



背景技术:

在临床高通量测序实验室中,每一个样本测序的结果都是数以千计甚至上万的基因变异位点。针对这些位点,已有一个广泛应用、广被接受的指南——《美国acmg协会关于基因变异临床解读的指南(2015)》。但是,该指南的应用评估体系非常复杂,使得手工分析一个病人的结果都会消耗大量的时间。目前还缺乏一种高效的变异位点评估方法及系统。



技术实现要素:

一方面,本发明的目的在于克服现有技术存在的不足之处而提供了一种基因变异评估方法,本发明的基因变异评估方法可以节省大量的时间。

本发明采用的技术方案为:一种基因变异评估方法,包括以下步骤:

获取待评估样本的高通量测序数据;

将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为lof,获取第一判断结果;

根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;

根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;

根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。

作为对上述技术方案的进一步改进,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤包括:

当所述第一判断结果为所述突变位点为lof,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;

当所述第一判断结果为所述突变位点不为lof且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

其中,所述第二频率阈值低于所述第一频率阈值。

作为对上述技术方案的进一步改进,所述根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果的步骤进一步包括:

根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;

其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。

作为对上述技术方案的进一步改进,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;

当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。

作为对上述技术方案的进一步改进,所述疾病数据库选自:hgmd、clinvar和omim。

作为对上述技术方案的进一步改进,所述群体遗传数据库选自:1000g、esp6500、kmtd、exac、gnomad和evs。

作为对上述技术方案的进一步改进,所述群体遗传数据库选自:1000g、esp6500、kmtd、exac和gnomad;其中,

当所述数据库为1000g时,所述第一频率阈值为2%,所述第二频率阈值为1%;

当所述数据库为esp6500时,所述第一频率阈值为2%,所述第二频率阈值为1%;

当所述数据库为kmtd时,所述第一频率阈值为4%,所述第二频率阈值为2%;

当所述数据库为exac时,所述第一频率阈值为4%,所述第二频率阈值为2%;

当所述数据库为gnomad时,所述第一频率阈值为4%,所述第二频率阈值为2%。

作为对上述技术方案的进一步改进,所述比对利用高通量测序数据比对软件进行,所述高通量测序数据比对软件包括:bwa、maq、soap2和bowtie2。

作为对上述技术方案的进一步改进,所述获取所述高通量测序数据中的突变位点包括:寻找待评估样本的高通量测序数据与参考序列的差异,识别突变位点,并对所述变异位点进行功能注释。

作为对上述技术方案的进一步改进,识别突变位点使用gatk软件进行,功能注释使用annovar软件进行。

另一方面,本发明还提供了一种基因变异评估系统,其包括:

高通量测序数据获取模块,用于获取待评估样本的高通量测序数据;

突变位点获取模块,用于将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为lof,获取第一判断结果;

第二判断结果获取模块,用于根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;

第三判断结果获取模块,用于根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;

致病风险评估模块,用于根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。

作为对上述技术方案的进一步改进,所述致病风险评估模块具体用于:

当所述第一判断结果为所述突变位点为lof,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;

当所述第一判断结果为所述突变位点不为lof且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

其中,所述第二频率阈值低于所述第一频率阈值。

相对于现有技术,本发明的有益效果为:

本发明的基因变异评估方法及系统适用于高通量测序结果的分析解读,其具有操作简便、高效、节省时间、应用性较强等优势,可用于临床诊断等。

附图说明

图1为本发明的基因变异评估方法的基本流程示意图;

图2为本发明的基因变异评估系统的基本结构框图;

图3为实施例1中经过annovar软件处理的高通量测序数据示例图;

图4为实施例1中输出结果示例图。

具体实施方式

如图1所示,其为根据本发明的基因变异评估方法的基本流程示意图,该方法包括以下步骤:

s100:获取待评估样本的高通量测序数据;

其中,高通量测序数据可通过测序平台获取,例如illumina公司的hisq2000/2500测序平台、lifetechnologies公司的iontorrent平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序。

s200:将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为lof,获取第一判断结果;

其中,所述比对可以利用已知的高通量测序数据比对软件进行,包括但不限于bwa、maq、soap2和bowtie2。所述突变位点包括snp和indel。在一个优选的实施例中,所述获取所述高通量测序数据中的突变位点包括:寻找待评估样本的高通量测序数据与参考序列的差异,识别突变位点,并对所述变异位点进行功能注释。进一步地,识别突变位点使用gatk软件进行,功能注释使用annovar软件进行,功能注释后可得一个易于理解的突变位点信息列表(如图3所示)。根据获取的突变位点信息,即可判断所述突变位点是否为lof。lof即lossoffunctionmutation,包括stopgain;stoploss;frameshift;splicing。

s300:根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;

其中,疾病数据库主要包含病患中发现的变异以及对其致病性的评估,所述疾病数据库选自:hgmd、clinvar和omim。为了增加风险评估的准确性,优选地,所述疾病数据库包括hgmd和clinvar。显然,所述第二判断结果有两个:其一是所述突变位点收录于所述疾病数据库中,其二是所述突变位点未收录于所述疾病数据库中。

s400:根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;

其中,群体遗传数据库适用于获取某变异在大规模人群中发生频率的相关信息,所述群体遗传数据库选自:1000g、esp6500、kmtd、exac、gnomad和evs。为了增加风险评估的准确性,优选地,所述群体遗传数据库包括:1000g、esp6500、kmtd、exac和gnomad。显然,所述第三判断结果有两个:其一是所述突变位点收录于所述群体遗传数据库中,其二是所述突变位点未收录于所述群体遗传数据库中。所述突变频率是指群体内发生某种突变的细胞和个体数的比例,其值可在群体遗传数据库中获取。

s500:根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果。

具体地,s500步骤包括:当所述第一判断结果为所述突变位点为lof,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;

当所述第一判断结果为所述突变位点不为lof且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到所述突变位点的致病风险评估结果为高风险位点;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为低风险位点;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

其中,所述第二频率阈值低于所述第一频率阈值。

在一个优选的实施例中,所述第一频率阈值为所述第二频率阈值的2~3倍,更优选为2倍。

优选地,s500步骤进一步包括:

根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;

其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。可见,评分分值越高,意味着突变位点的致病风险性越高。

进一步地,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;

当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。

在一个优选的实施例中,所述第三频率阈值为所述第一频率阈值的4~6倍。

为了提高评估的准确性,进一步地,当所述数据库为1000g时,所述第一频率阈值为2%,所述第二频率阈值为1%,所述第三频率为10%;当所述数据库为esp6500时,所述第一频率阈值为2%,所述第二频率阈值为1%,所述第三频率阈值为10%;当所述数据库为kmtd时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%;当所述数据库为exac时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%;当所述数据库为gnomad时,所述第一频率阈值为4%,所述第二频率阈值为2%,所述第三频率阈值为20%。

以上所述的低风险位点是风险最低的位点,预示着致病的可能性极低,但不排除疾病风险相关位点。中风险位点的疾病风险介于低风险位点与高风险位点之间,大多数中风险位点的变异实际都是良性的;高风险位点是风险最高的位点,这些位点有显而易见的证据支持其致病性(例如疾病数据库有收录,或者是lof突变);但高风险位点的变异并非都是病理性的。根据acmg指南,还需要结合其他证据才能判断变异的致病性。

如图2所示,本发明的实施例还提供了一种基因变异评估系统,其包括:高通量测序数据获取模块100、突变位点获取模块200、第一判断结果获取模块300、第二判断结果获取模块400和致病风险评估模块500,其中,

高通量测序数据获取模块100,用于获取待评估样本的高通量测序数据;

突变位点获取模块200,用于将所述高通量测序数据与参考序列比对,获取所述高通量测序数据中的突变位点,并判断所述突变位点是否为lof,获取第一判断结果;

第二判断结果获取模块300,用于根据疾病数据库中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;

第三判断结果获取模块400,用于根据群体遗传数据库中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;

致病风险评估模块500,用于根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的致病风险评估结果并输出。

进一步地,致病风险评估模块500具体用于:

当所述第一判断结果为所述突变位点为lof,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值比较,获取第一比较结果;

当所述第一判断结果为所述突变位点不为lof且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值比较,获取第二比较结果;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,得到并输出所述突变位点的致病风险评估结果为中风险位点;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到并输出所述突变位点的致病风险评估结果为高风险位点;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到并输出所述突变位点的致病风险评估结果为低风险位点;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值时,得到所述突变位点的致病风险评估结果为中风险位点;

其中,所述第二频率阈值低于所述第一频率阈值。

在一个优选的实施例中,所述第一频率阈值为所述第二频率阈值的2~3倍,更优选为2倍。

进一步地,所述致病风险评估模块500还用于根据所述第一比较结果、第二比较结果以及突变频率,按照预设评分规则对所述突变位点进行评分;其中,所述预设评分规则包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,所述评分为2分;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,所述评分为0分;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,所述评分为1分;

根据所述评分得到所述突变位点的致病风险评估结果;其中,当所述评分为0时,表示所述突变位点的致病风险评估结果为低风险位点,当所述评分为0.5~1.5时,表示所述突变位点的致病风险评估结果为中风险位点,当所述评分为2时,表示所述突变位点的致病风险评估结果为高风险位点。

进一步地,所述当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,所述评分为0.5~1.5分,具体包括:

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值比较,获取第三比较结果,所述第三频率阈值高于所述第一频率阈值;

当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分。

在一个优选的实施例中,所述第三频率阈值为所述第一频率阈值的4~6倍。

需要说明的是,本发明的方法和系统适用于疑似遗传(主要指孟德尔遗传)疾病患者的变异,并不适用于体细胞变异、药物基因组变异或多基因孟德尔复杂疾病相关的基因变异。

为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。

实施例1

一种基因变异评估方法,具体包括以下步骤:

(1)获取待评估样本的高通量测序数据;

(2)利用bwa软件把待评估样本的高通量测序数据与参考基因组进行比对,使用gatk软件寻找测序数据与参考基因组的差异,识别突变位点,并利用annovar软件对所述变异位点进行功能注释,得到一个易于理解的突变位点信息列表(如图3所示);根据突变位点信息,判断所述突变位点是否为lof,获取第一判断结果;

(3)根据疾病数据库hgmd和clinvar中的信息,判断所述突变位点是否收录于所述疾病数据库中,获取第二判断结果;

(4)根据群体遗传数据库1000g、esp6500、kmtd、exac和gnomad中的信息,判断所述突变位点是否收录于所述群体遗传数据库中,获取第三判断结果;并在所述第三判断结果为收录时获取所述突变位点的突变频率;

(5)根据所述第一判断结果、第二判断结果、第三判断结果以及突变频率,得到所述突变位点的评分结果并输出(输出结果如图4所示,该图中的第a列即计算之后的评分结果),根据评分结果评估致病风险:

当所述第一判断结果为所述突变位点为lof,或所述第二判断结果为所述突变位点收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第一频率阈值(其中,1000g对应的第一频率阈值为2%,esp6500对应的第一频率阈值为2%,kmtd对应的第一频率阈值为4%,exac对应的第一频率阈值为4%,gnomad对应的第一频率阈值为4%)比较,获取第一比较结果;

当所述第一判断结果为所述突变位点不为lof且所述第二判断结果为所述突变位点未收录于所述疾病数据库中,所述第三判断结果为所述突变位点收录于所述群体遗传数据库中时,将所述突变位点的突变频率与预置的第二频率阈值(其中,1000g对应的第一频率阈值为1%,esp6500对应的第一频率阈值为1%,kmtd对应的第一频率阈值为2%,exac对应的第一频率阈值为5%,gnomad对应的第二频率阈值为2%)比较,获取第二比较结果;

当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第一频率阈值时,将所述突变位点的突变频率与预置的第三频率阈值(其中,1000g对应的第三频率阈值为10%,esp6500对应的第三频率阈值为10%,kmtd对应的第三频率阈值为20%,exac对应的第三频率阈值为20%,gnomad对应的第三频率阈值为20%)比较,获取第三比较结果;当所述第三比较结果为所述突变位点的突变频率低于预置的第三频率阈值时,所述评分为1.5分并输出,其致病风险评估结果为中风险位点;当所述第一比较结果为所述突变位点的突变频率高于或等于预置的第三频率阈值时,所述评分为0.5分并输出,其致病风险评估结果为中风险位点;

当所述第一比较结果为所述突变位点的突变频率低于预置的第一频率阈值时,得到此突变位点的评分为2分,其致病风险评估结果为高风险位点;

当所述第二比较结果为所述突变位点的突变频率高于或等于预置的第二频率阈值时,得到此突变位点的评分为0分,其致病风险评估结果为低风险位点;

当所述第二比较结果为所述突变位点的突变频率低于预置的第二频率阈值,得到此突变位点的评分为1分,其致病风险评估结果为中风险位点。虽然0.5分、1分、1.5分的突变位点均表示为中风险位点,但它们的致病风险并非完全相同,而是随着分值的升高而增大。

分别利用本发明的基因变异评估方法和《美国acmg协会关于基因变异临床解读的指南(2015)》对获取的数千个待评估样本的高通量测序数据进行评估,结果表明本发明的基因变异评估方法与《美国acmg协会关于基因变异临床解读的指南(2015)》的评估结果符合度很高。

最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1