一种单基因隐性遗传疾病候选致病基因的筛选装置的制作方法

文档序号:18124919发布日期:2019-07-10 09:50阅读:642来源:国知局

本发明涉及基因检测领域,尤其涉及一种单基因病隐性遗传疾病候选致病基因的筛选装置及方法。



背景技术:

在人类基因组中,由一对变异等位基因导致的疾病称为单基因遗传疾病(monogenicdisorder)。该类型疾病有6600多种,并且以每年10~50种的速度递增。单基因遗传病对人类健康构成了较大的威胁,其中较常见的该类型疾病有红绿色盲、血友病、白化病等。人类单基因遗传疾病主要分为符合孟德尔遗传定律的单基因遗传病与不遵循孟德尔遗传定律的单基因遗传病两大类,前者包括常染色体遗传、x连锁遗传以及y连锁遗传,后者包括印记基因疾病和线粒体疾病。单基因遗传病的变异基因可发生在生殖细胞或受精卵及早期阶段的胚胎,变异的遗传信息经过表达可以形成一定异常性状的疾病。

常染色体显性遗传病指的是位于常染色体上的两个等位基因中,单个等位基因发生变异,就能显示发病。这类疾病已达1700多种,如家族性多发性结肠息肉、多指、并指等。其遗传系谱特点是:1、遗传与性别无关,男女发病机会均等;2、患者双亲往往有一方为患者;3、若双亲无病,子女一般不发病;4、患者常为杂合型,如果与正常人婚配,则其子女患病概率为50%;5、常见连续几代的遗传。显性致病基因有时由于内外环境的影响,杂合子个体携带显性致病基因并不表达,即不完全外显。常染色体显性遗传病的外显率为60%~90%。

常染色体隐性遗传病致病基因为位于常染色体上的隐性基因,当隐性基因纯合时才能发病。隐性遗传病患者大多是由两个携带者所生的后代,故多见于近亲婚配者的子女。已确定这类疾病约1200多种,如先天性聋哑、白化病、苯丙酮尿症。杂合型隐性致病基因携带者,本身不表达相应的性状,但可将致病基因传给后代。子代有1/4的概率患病,子女患病概率均等。如糖原沉积病i型,患者由于体内缺少葡萄糖-6-磷酸酶,因此糖原不能分解为6-磷酸葡萄糖而造成糖原沉积,只有基因型为gg的个体,才表现为致病。当一对夫妇均为携带者时(即基因型为gg),其后代中有1/4的概率患病,正常个体与患者的比例为3:1。许多遗传代谢异常的疾病,属常染色体隐性遗传病。按照"一基因,一个酶"(onegeneoneenzyme)或"一个顺反子,一个多肽"(onecistrononepolypeptide)的概念,这些遗传代谢病的酶或蛋白分子的异常,来自各自编码基因的异常。常染色体隐性遗传病的谱系特点:1、男女发病机会均等,发病与性别无关;2、双亲为无病携带者,子女发病概率为25%;3、看不到连续几代遗传,但可见隔代或隔数代遗传;4、近亲婚配时,子女中隐性遗传病患病率大为增高,这是因为有血缘关系的人更容易携带同一个变异等位基因。如苯丙酮尿症在人群中随机婚配时,发病率为1:14500;表兄妹婚配则为1:1700。全身性白化病在人群中发病率为1:40000;表兄妹婚配则为1:3600。

目前,单基因隐性遗传疾病候选基因的分析方法包括以下步骤:1,根据性状确定候选基因;2,获取带有候选基因的序列信息;3,分析候选基因的变异信息;4,确定候选基因是否为单基因隐性遗传疾病的致病基因。



技术实现要素:

目前人们通常根据孟德尔遗传定律和家系患病情况来判断由单个基因控制的疾病是否为隐性遗传模式,即该致病基因是否为隐性基因。这种方法效率低,工作量大,且一般仅适合于对少数几个基因的判断,而无法实现高通量的运算。

本发明主要目的在于提供一种在全基因组范围内检测符合隐性遗传模式的基因,以实现高通量、高效率的筛选致病基因的目的。为了实现该目的,本发明提供了一种结合二代测序方法进行单基因隐性遗传疾病候选基因定位的分析装置和方法。

本发明涉及单基因隐性遗传疾病候选致病基因的筛选装置,其包括:

1.一种单基因隐性遗传疾病候选致病基因的筛选装置,其中,所述装置包括:

家系信息收集模块:用于收集待分析家系中各成员的患病情况;.

变异信息获取模块:用于获得待分析家系中各成员的外显子变异位点信息;

变异信息比对模块:用于对通过变异信息获取模块获取的待分析家系各成员的变异位点信息进行比对取并集,并判断家系中各成员的基因型;

遗传模式判定模块:用于判定变异位点的遗传模式是否符合孟德尔隐性遗传模式;

候选位点注释模块:利用数据库确定符合孟德尔隐性遗传模式变异位点所在的基因,以及在所述基因上的具体位置和所述变异对蛋白编码的影响;

结果筛选模块,用于对筛选获得的符合孟德尔隐性遗传模式的变异位点作进一步的筛选,由此筛选后的变异位点作为最后的候选的变异位点,包含这些位点的基因作为目标候选基因。

2.根据项1所述的装置,其中,所述家系信息分析模块还包括根据家系中各成员的亲缘关系和患病情况绘制家系遗传图。

3.根据项1所述的装置,其中,所述变异信息获取模块通过全基因组重测序或者全外显子组重测序获得待分析家系各成员的变异位点信息。

4.根据项1所述的装置,其中,变异信息比对模块中所述变异位点信息包括:变异所在的染色体、变异的起始位点、变异的终止位点、变异在参考基因组上的基因型、变异后的碱基类型。

5.根据项1所述的装置,其中,所述候选位点注释模块中确定符合孟德尔隐性遗传模式变异位点所在的基因使用的数据库为ncbi数据库和ucsc数据库。

6.根据项1所述的装置,其中,所述候选位点注释模块还包括:

利用cosmic、omim及hgmd数据库进行疾病相关的注释;

利用sift、polyphen、cadd及fathmm-mkl数据库进行致病性预测的注释:

利用phylop20way_mammalian、phastconselements46way及gerp++elem数据库进行保守性预测。

7.根据项1所述的装置,其中,所述结果筛选模块包括以下几个步骤:

步骤a:保留外显子区和剪切位点区的变异;

步骤b:过滤千人基因组数据库(人群中频率大于0.01)变异位点,删除个体间多样性位点,得到可能致病的罕见变异,保留千人基因组数据库中频率低于0.01的变异位点;

步骤c:删除同义变异,获得对基因表达有影响的变异。

8.根据项1所述的装置,其中,所述装置还包括:

目标候选基因功能注释模块:用于利用数据库对目标候选基因的功能进行注释;

功能富集分析模块:用于利用geneontology数据库对候选基因进行功能富集分析,以分析这些候选基因功能是否相似,是否在与疾病相关的功能通路中富集;以及

通路富集分析模块:用于利用kyotoencyclopediaofgenesandgenomes数据库对候选基因进行通路富集分析,判断这些候选基因是否富集在与疾病相关的代谢通路里。

9.根据项8中所述的装置,其中,所述通路富集分析模块之后还包括:

蛋白质互作分析模块:使用cytoscape软件构建可视化的分子交互作用网络分析候选基因编码的蛋白之间的互作关系。

发明的效果

根据本发明,能够直接利用科研界主流的二代测序产生的数据,在全基因组范围内定位与隐性遗传疾病关联的候选位点和候选基因。

本发明将全基因组范围内的所有变异均考虑进去,避免因个人主观因素造成的偏向性和遗漏;本发明一次分析的变异位点高达106(甚至可以更高),并且操作简单,仅需要分析人员填写几个必要的参数就能完成一键式分析,方便、快捷的同时实现了高通量。

本发明利用人类疾病相关的各大数据库进行检索,可在多个层面进行基因筛选,同时也可利用多个库进行相互佐证。

本发明还利用多个数据库进行富集分析,除分析基本候选基因功能外,还考虑其在不同通路中的效应和富集情况,为最后确定候选基因提供了有力的证据。

具体实施方式

定义:

家系:是指某一家族的成员数目、亲属关系以及有关遗传性状或遗传病在该家系中分布情况,在这里,成员包括父亲、母亲以及由二者所生的子代,子代的数量为一个或两个以上;

同义突变:是指由于生物的遗传密码子存在简并现象,在某一碱基改变后,在原来的某种氨基酸的位置译成同一种氨基酸;

剪切位点区:剪接体可识别的rna前体中内含子和外显子连接边界的序列和接头位点的区域;

家系遗传图:根据不同情况而采用不同的样式。一般男用□表示,女用○表示;□、○以横线连结的称为婚姻线,表示为夫妇;从婚姻线的近中点向下作垂线,下端连上子女记号,子女如在二人以上,可按出生顺序从左向右排列,■、●表示患病;

孟德尔隐性遗传模式:致病基因为隐性的,只有纯合子才显示病状,且该疾病的遗传模式符合孟德尔遗传规律。

本发明涉及一种单基因隐性遗传疾病候选致病基因的筛选装置,该装置需要提供核心家系的患病信息。包括以下步骤:

家系信息收集模块:用于收集待分析家系中各成员的患病情况;.

变异信息获取模块:用于获得待分析家系中各成员的外显子变异位点信息;

变异信息比对模块:用于对通过变异信息获取模块获取的待分析家系各成员的变异位点信息进行比对取并集,并判断家系中各成员的基因型;

遗传模式判定模块:用于判定变异位点的遗传模式是否符合孟德尔隐性遗传模式;

候选位点注释模块:利用数据库确定符合孟德尔隐性遗传模式变异位点所在的基因,以及在所述基因上的具体位置和所述变异对蛋白编码的影响;

结果筛选模块,用于对筛选获得的符合孟德尔隐性遗传模式的变异位点作进一步的筛选,由此筛选后的变异位点作为最后的候选的变异位点,包含这些位点的基因作为目标候选基因。

收集家系信息收集模块中家系通常包括父亲、母亲和由二者生的子代,包括但不限于一个子代。在这里,以父母加一个孩子的典型家系为例进行描述。在确保孩子与双亲之间的亲缘关系之后,收集家系中各成员的患病情况,并确保信息准确。优选地,根据亲缘关系和患病情况绘制家系遗传图。

变异信息获取模块:获得样本的全基因组(外显子)单核苷酸变异(snp)和小片段插入缺失变异(indel)。推荐通过人的全基因组重测序或者全外显子重测序获得待分析家系所有样本的变异情况。

二代测序数据常规的分析策略:测序数据过滤比对-变异检测-annovar注释-后续其它分析。为了与二代测序分析方法无缝对接,本发明从对个体变异检测的结果入手检测符合隐性遗传模式的变异位点,从而挖掘与隐性遗传疾病相关的候选基因。

变异信息比对模块:对家系中个体的变异结果进行整合,对家系成员的变异取并集。一个变异位点一行,在前几列写明变异所在的染色体、变异的起始位点、变异的终止位点、改变异位点在参考基因组上的基因型、改变异位点变异后的碱基类型,这些信息用于定位变异,也用于后续对变异位点的annovar注释。接下来判断家系中各位点在不同个体中的基因型(genotype),其中与参考基因组一致的纯合位点用0/0表示,纯合变异的位点用1/1表示,杂合位点用0/1表示,本发明通过开发程序来完成这一步分析。

遗传模式判定模块:根据孟德尔遗传定律,隐性纯合变异位点一般表现为:父母为杂合位点,而在患病个体中为纯合变异位点,且与正常姐妹基因型不同(正常姐妹可能为杂合位点,也可能为与患病变异基因型不同的纯合基因型)。依据上述原则判断每个变异位点的遗传模式是否符合孟德尔隐性遗传模式。我们检测的变异包括snp和indel两种。

候选位点注释模块:为了保证注释的全面性,我们同时依据ncbi和ucsc数据库进行注释,确定变异位点所在的基因,以及在基因上的具体位置和变异对蛋白质编码的影响。除此之外,我们还利用多个数据库进行不同方面的注释。例如疾病相关的数据库cosmic、omim、hgmd等,致病性预测相关的数据库sift、polyphen、cadd、fathmm-mkl等,保守性预测相关的数据库phylop20way_mammalian、phastconselements46way、gerp++elem等。

结果筛选模块:针对筛选获得的隐性遗传变异位点作进一步的筛选,得到罕见变异,具体的筛选方法如下:

1)保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的变异;

2)过滤千人基因组数据库(人群中频率大于0.01)变异位点,删除个体间多样性位点,得到真正可能致病的罕见变异(rare):保留1000genome数据库中频率低于0.01的变异位点;

3)删除同义变异(不导致氨基酸编码改变的变异),获得对基因表达产物有影响的变异(保留的变异包括indel中的移码和非移码变异)。筛选后的变异位点作为最后的候选的变异位点,包含这些位点的基因作为目标候选基因。

在这里,所述的筛选装置还包括:

目标候选基因功能注释模块:利用数据库对目标候选基因功能进行注释。

功能富集分析模块:利用geneontology(简称go)数据库对候选基因进行功能富集分析,以分析这些候选基因功能是否相似,是否在与疾病相关的功能通路中富集。

通路富集分析模块:利用kyotoencyclopediaofgenesandgenomes(简称kegg)数据库对候选基因进行通路富集分析,看这些候选基因是否富集在与疾病相关的代谢通路里。

进一步的,还包括:

蛋白质互作分析模块:使用开源软件的cytoscape软件,构建可视化的分子交互作用网络分析候选基因编码的蛋白之间的互作关系。

实施例

实施例针对上述家系信息收集模块,由于测序技术的快速发展,目前的主要测序技术--二代测序不仅速度快、准确度高,而且通量很大,因此在全基因组范围内解析遗传信息变得快速而廉价,二代测序已成为多个科学研究领域的常规手段。本发明也是基于二代测序技术进行的。首先确定待分析家系的详细情况,这里的家系通常包括父亲、母亲和由二者生的子代,当然若有两个以上的子代也可以。为了方便,在本说明书中,我们以父母加一个孩子的典型家系为例进行后续叙述。需要确认的信息如下:

首先,要确定孩子与双亲之间的血缘关系。以下几种情况不适合用该发明方法进行分析:1)对于收养的孩子,无法用孩子和养父母构成的家系进行分析;2)对于三个个体的核心家系,如果无法获取父母双亲之一基因型或者无法确定患病与否(适用于父母之一早逝,而发病时间又比较晚的情况)无法进行分析;3)对于仅有父母双亲之一的和多个子代的遗传信息和患病情况,可以进行分析,但结果的假阳性会比较高;其次,要明确家系中各成员的患病情况,即进行表型鉴定。对于有临床表现的疾病,可以直接判断表型;对于无临床表现的疾病则需要通过理化检测体内物质含量来确定表型;再次,该发明仅针对隐性遗传疾病进行候选基因的定位,故符合“隐性遗传模式”是必须的,所以首先需要判断疾病的遗传模式是否符合隐性遗传模式。根据孟德尔遗传定律可知,隐性遗传病在父母双亲中表现正常,而在子代中患病个体和正常个体均存在。如果表型鉴定只做了一代,那么一定是父母双亲均表型正常,而子代之一患病;如果多代的表型均已鉴定,可以利用多代人的患病情况根据孟德尔遗传定律去判断是否为隐性遗传模式,在本实施例中,以父母为正常,儿童为小耳畸形表型的家系为例。

在变异信息获取模块中,获取符合条件家系成员的覆盖整个基因组的变异,这里的变异包括单核苷酸变异(snp)和小片段的插入缺失变异(indel)。通常获取的方法如下:首先,提取家系各成员血液中的dna(其它组织样本也可以),然后根据dna样本的不同情况可采用不同的方法进行dna提取;然后,使用自动聚焦声波样本处理仪将dna随机打断成短片段dna。在随机打断的dna片段上加上合适的接头,将连有接头的dna片段使用pcr技术进行富集,取富集后的dna片段进行纯化。在本发明中,采用高通量测序对制备的文库进行测序,具体平台可以选择illumina公司的hiseq2000,hiseq2500,miseq、netseq500、xten等(如果是外显子组测序需要进行外显子捕获,对测序类型和插入片段大小没有特殊的要求)。虽然不同测序平台的测序方式略有不同,但最终都能后得到来源于待测样本的dna测序数据。测序结果包括某些原始下机序列(rawreads),rawreads包含低质量的序列、接头污染的序列、含n碱基比例大于5%的序列以及cleanreads。cleanreads所占的比例越高,数据质量越好。为保证后续信息分析的质量,对原始序列进行过滤,得到高质量的cleanreads,再进行后续分析。数据处理步骤如下:

(1)去除接头污染的reads(接头污染的碱基数大于5bp的reads,对于双端测序,若一端受到接头污染,则去掉两端的reads);

(2)去除低质量的reads(质量值q≤19的碱基占总碱基的50%以上的reads,对于双端测序,若一端为低质量reads,则会去掉两端reads);

(3)去除含n碱基比例大于5%的reads(对于双端测序,若一端含n比例大于5%,则会去掉两端reads)。

过滤掉上述易引起分析误差的reads后,以ucschg19参考基因组作为参考序列,利用比对软件(推荐使用bwa),将过滤后的cleanreads比对到参考基因组上,得到bam(http://samtools.github.io/hts-specs/samv1.pdf)格式比对结果文件。使用samtools(lietal.,2009)软件对bam文件进行排序,只保留序列唯一比对结果,再利用picard(http://broadinstitute.github.io/picard/)标记比对结果中的duplicationread,同时还利用gatk(mckenna,a.etal.,2000)对indel周围的序列进行局部重新比对,降低snp检测假阳性,得到高准确性的用于变异检测的比对结果bam文件。对于外显子测序分析,需要通过统计目标区域捕获效率、比对率以及覆盖度等指标值来评估样本、建库及测序等方面的质量情况.其中uniqrate可直观反映唯一比对到参考基因组上序列的比例,duplicationrate反映样品建库质量。在比对到参考基因组序列的基础上,通过突变分析软件gatk从中提取全基因组中所有的潜在多态性snp和indel位点,再根据质量值、深度、重复性等因素做进一步的过滤筛选,最终得到高可信度的snp和indel变异数据集。

在变异信息比对模块中,变异信息获取模块中得到的变异位点是个体检测的结果,而非群体检测的结果,故在变异信息比对模块中对家系中各样本的变异进行整合。由于用gatk检测单个体的变异位点的时候输出的仅是突变位点(非gvcf),并且每个个体都有自身独特的变异位点,故我们需要综合整个家系的变异位点确定最后的基因型(genotype)。首先将家系中各样本的变异位点根据染色体号、起始位置、终止位置、参考基因组碱基型、突变碱基型等几个指标取交集得到一个总的变异位点集合m1。而后整理家系中所有个体在m1中各变异位点的基因型,其中与参考基因组一致的纯合位点用0/0表示,纯合突变的位点用1/1表示,杂合位点用0/1表示。为了快速、高效的执行,本发明通过开发程序来完成这一步分析。

在步骤遗传模式判定模块中,进行遗传模式判定。根据孟德尔遗传定律,隐性纯合突变位点一般表现为:父母为杂合位点,而在患病个体中为纯合突变位点,且与正常姐妹基因型不同(正常姐妹可能为杂合位点,也可能为与患病突变基因型不同的纯合基因型)。依据上述原则判断每个变异位点的遗传模式是否符合隐性遗传模式。对于人的全基因组重测序数据,上述snp和indel变异之和通常在105-106个。即使是全外显子数据,检测到的两种变异也在104-105水平上,不可能一个一个位点靠肉眼去判断其遗传模式。本发明开发了相应的程序来完成这一步分析。

在候选位点注释模块中,经过遗传模式判定模块中的程序的分析,我们得到了符合隐性遗传模式的所有变异位点,这些位点遍布基因组的不同位置:1、可能处于基因上,也可能处于基因间区;2、可能处于外显子上,也可能处于内含子区或者剪切位点;3、可能引起同一突变,也可能引起非同义突变。为了确定这些变异在基因上所处的位置及其编码蛋白的影响等,对通过s4步骤获取的变异进行annovar注释。为了保证注释的全面性,我们同时利用ncbi和ucsc数据库进行注释,确定变异位点所在的基因,以及在基因的上的具体位置。例如变异位点1位于1号染色体上,该变异的起始位点是120611960,终止位点是120611960,参考基因组的碱基型是c,突变后的碱基型是t,该变异位点位于基因上notch2,位于基因的位置外显子上,该突变是非同义突变,该突变导致notch2基因的第一个外显子上第21个氨基酸由a突变成t。除此之外,我们还利用多个数据库进行不同方面的注释。例如疾病相关的数据库cosmic、omim、hgmd等,致病性预测相关的数据库sift、polyphen、cadd、fathmm-mkl等,保守性预测相关的数据库phylop20way_mammalian、phastconselements46way、gerp++elem等。

针对结果筛选模块,由于突变是可遗传变异的根本来源,不论是真核生物还是原核生物的突变,也不论是什么类型的突变,都具有随机性、低频性和可逆性等特性。所以并不是所有的突变会引起人类的疾病。而通过遗传模式判定模块筛选得到的突变在筛选得到的隐性遗传突变位点中作进一步的筛选,得到罕见突变,具体的筛选方法如下:

1)由于位于外显子区和剪切位点的变异有可能引起蛋白功能的改变,而大多数疾病都是由于蛋白质功能改变而引起的,然而位于基因间区和内含子区的变异大多是不影响功能的,为了进一步缩小功能位点的范围,故对s4的结果做进一步的筛选,保留外显子区(exonic)或剪切位点区(splicing,剪切位点上游2bp)的变异;

2)由于千人基因组数据库收录的是正常人的数据,故在该数据库中高频的变异位点不会是单基因病的致病位点,故进行了如下过滤:过滤千人基因组数据库(人群中频率大于0.01)变异位点,删除个体间多样性位点,得到真正可能致病的罕见突变(rare),保留1000genome数据库中频率低于0.01的突变位点;

3)同义变异(不导致氨基酸编码改变的突变)对于蛋白质序列没有影响,所以去除同义变异,得到对基因表达产物有影响的变异(保留的突变包括indel中的移码和非移码突变)。

筛选后的变异位点作为最后的候选的突变位点,包含这些位点的基因作为目标候选基因。

结果显示,该样本存在在2号染色体上six2基因组存在1717(a/c)变异,1号染色体上fndc7存在109268573(t/c)变异,3号染色体上muc20存在195452951(c/g)变异;5号染色体上基因pcdha9、pcdh12的140229086(c/g)变异、141336264(g/t)变异;7号染色体上ifna10存在21207000(c/g)变异,11号染色体cdon基因存在125830970(a/t),15号染色体adamts7存在79058445(g/a),20号染色体的kiz、bpifa2的变异等40几个基因的变异,这些基因变异对于研究小耳畸形具有重要意义。

上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1