一种dna及蛋白质水平突变分析方法

文档序号:10655792阅读:1311来源:国知局
一种dna及蛋白质水平突变分析方法
【专利摘要】本发明提供了一种DNA及蛋白质水平突变分析方法,包括以下步骤:1)1)读取基因突变文件,格式化处理成标准名称;2)索引转录本序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表;3)判断突变发生的水平、突变的模式;判断突变命名是蛋白质水平突变或是基因组DNA水平突变或是CDS编码区突变;4)根据步骤3)的判断结果,分别进入不同的水平突变映射流程,得到三种突变命名的映射关系。本发明承接文献挖掘的表型相关基因突变和多态位点,输出多种突变命名的映射关系,以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。
【专利说明】
一种DNA及蛋白质水平突变分析方法
技术领域
[0001]本发明属于基因信息数据处理领域,特别是涉及到一种DNA及蛋白质水平突变分析方法。【背景技术】
[0002]在Watson和Crick发现DNA双螺旋结构后的50多年里,探索基因变异在研究人类疾病的发生发展及预防治疗中扮演了重要角色,人类基因组计划的完成更为疾病和表型相关基因变异的识别开辟了广阔的空间。近年来从微阵列芯片、sanger测序到现在的高通量测序,随着技术的进步,越来越多的基因变异和多态位点被检测出来。它们从分子水平上揭示疾病和众多表型的机制,为解开生命奥秘及征服疾病带来新希望。
[0003]然而,不同研究人员识别的基因突变和多态位点在命名上缺乏统一的表示,如抑癌基因TP53在基因组位置7579553处发生了T到A碱基的突变,有的直接采用基因组位置作为标示加以命名(TP53: g.7579553T>A),有的采用基因编码区域的变异进行命名(TP53: c.134T>A),还有的采用最终的蛋白水平的变异结果进行命名(TP53:p.L45Q)。即使在同一蛋白水平的突变描述上,识别基因突变或多态时参考基因序列的不同也导致了最终命名不同,甚至混淆以致无法使用,例如仅对TP53基因的L45Q突变,不同研究采用的参考转录本就涉及了匪_001126112、匪_000546、匪_001126113和匪_001126114。这种不同水平的命名方式最终导致后来的研究人员很难基于前人的研究成果进行有效且准确地进行统一的分析和注释。例如在文献挖掘先前已报道的人类乳腺癌相关的基因突变和多态位点,找到4000 多篇PubMed文献,共挖掘出3600多种基因突变和多态位点,但是缺乏一致的基因命名方式, 很难应用这些文献挖掘的结果到下一步的分析中。
[0004]近年来,下一代测序技术应用的越来越普遍,大量的生物信息分析软件随之产生。 在此背景之下,研究人员能快速利用现有成熟的生物信息分析软件及流程对海量的基因组测序数据进行解析,如识别基因突变及多态位点。借助前人的研究,快速准确的进一步解读注释这些突变才能加以应用,如应用到精准医疗中,进行疾病的个性化用药、诊断治疗等。 由于大量的先前研究对基因突变的命名不存在统一的标准,很难对解析的结果进一步的注释和解读。
【发明内容】

[0005]有鉴于此,本发明提出一种DNA及蛋白质水平突变分析方法,承接文献挖掘的表型相关基因突变和多态位点,输出多种突变命名的映射关系,以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。
[0006]为达到上述目的,本发明的技术方案是这样实现的:一种DNA及蛋白质水平突变分析方法,包括以下步骤:
[0007]1)读取基因突变文件,格式化处理成标准名称;
[0008]2)索引转录本序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表;
[0009]3)判断突变发生的水平、突变的模式;判断突变命名是蛋白质水平突变或是基因组DNA水平突变或是CDS编码区突变;
[0010]4)根据步骤3)的判断结果,分别进入不同的水平突变映射流程,得到三种突变命名的映射关系。
[0011]进一步的,步骤1)所述格式化处理成标准名称,方法为:
[0012]101)判断基因突变文件含有的是基因名还是转录本名;[〇〇13]102)含有基因名则进入步骤2);
[0014]103)含有转录本名则去除转录本版本号后转基因名,进入步骤2)。
[0015]进一步的,步骤2)所述构建氨基酸密码子对应关系表的步骤为:
[0016]201)构建基因名与转录本名之间的映射关系;
[0017]202)提取转录本的CDS编码区位置及碱基序列并映射相应的氨基酸密码子序列。
[0018]进一步的,步骤4)中,突变命名为蛋白质水平突变的映射流程为:
[0019]401)读入蛋白质水平突变结果后,根据氨基酸突变的位数,计算出相应CDS编码区域发生突变的位置;
[0020]402)上一步骤会列出所有可能的⑶S编码区域突变,对这些⑶S编码区突变用参考序列所在位置的碱基来去除不匹配结果,过滤以后得到CDS编码区域突变位置;
[0021]403)根据⑶S突变发生的位置,使用转录本结构注释信息,找到突变点在基因组上的位点及碱基改变。[〇〇22]进一步的,步骤4)中,突变命名为基因组DNA水平突变的映射流程为:[〇〇23]411)对于基因组DNA水平的突变结果,根据基因结构注释文件中该基因的⑶S区域说明,计算出相应CDS编码区突变发生的位置;[〇〇24]412)把该段CDS的DNA序列根据区域注释提取出来并转换成相应的氨基酸序列,最后得到相应的蛋白质水平的改变情况。
[0025]进一步的,步骤4)中,突变命名为CDS编码区突变的映射流程为:[〇〇26]421)已知CDS突变发生的位置及突变的碱基变化,根据CDS突变为位置从转录本对应的mRNA的序列文件的索引中计算该CDS区域对应的DNA序列;[〇〇27]422)把DNA序列通过碱基氨基酸关系表转成相应的氨基酸序列,把突变前后的氨基酸序列比较,定位出氨基酸发生改变的位置及氨基酸的变化,从而映射出蛋白水平的突变结果;[〇〇28]423)遍历该基因结构注释信息中的⑶S区域,计算出发生改变的基因组位置及碱基改变,从而映射出基因组DNA水平的突变情况。
[0029]相对于现有技术,本发明所述的一种DNA及蛋白质水平突变分析方法具有以下优势:
[0030]本发明以基因突变文件作为输入,经过自动识别,判断突变命名是在DNA、RNA还是蛋白质水平,进而通过REFSEQ的基因转录本注释文件和序列注释文件进行判定突变在各个水平发生的位置和碱基及氨基酸改变。本发明承接文献挖掘的表型相关基因突变和多态位点,输出多种突变命名的映射关系,以达到完成注释文献挖掘的致病变异与测序识别的基因突变和多态位点间对应等目的。【附图说明】
[0031]构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[〇〇32]图1为本发明的方法流程示意图。
[0033]图2为本发明实施例的遗传病的风险突变位点文件。
[0034]图3为本发明实施例的映射结果文件。【具体实施方式】
[0035]需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。[〇〇36]下面将参考附图并结合实施例来详细说明本发明。[〇〇37]本发明的原理说明:
[0038]不同水平突变的映射,实际上就是不同层面的位置定位和突变结果计算,针对不同水平的突变,需要采取不同的映射方式和步骤。本发明主要针对杂乱的不同层面的突变命名无法直接进行统一应用的情况,把所有层面的突变结果关系映射出来,方便对突变结果的进一步使用。[〇〇39]如图1所示,具体步骤如下:[〇〇4〇]首先,是基因转录本结构和序列以及氨基酸和碱基关系的索引。REFSEQ是一个稳定常用的基因注释数据库,采用其提供的基因机构注释文件和序列文件构建哈希表,达到从快速地从基因定位转录本,再到转录本结构,如内含子区,外显子区等。氨基酸和碱基(密码子)的互相对应关系也用哈希表加以存储,以便快速的进行氨基酸序列和碱基序列的转换。
[0041]其次是待映射文件的数据类型判断。通常,研究人员并未给出标准的基因名称或转录本名称,这个时候需要对提交的文件进行标化,达到标准注释的格式以便进行下一步的映射。
[0042]最后是映射关系的计算:
[0043]对于蛋白水平的突变,读入蛋白质水平突变结果后,根据氨基酸突变的位数,计算出相应CDS编码区域发生突变的位置。因为氨基酸的简并性,此过程会列出所有可能的CDS 编码区域突变,最后对这些CDS编码区突变用参考序列所在位置的碱基来去除不匹配结果。 过滤以后得到CDS突变。接下来根据CDS突变发生的位置,使用转录本结构注释信息,找到突变点在基因组上的位点及碱基改变。
[0044]对于CDS编码区水平的突变,根据CDS突变为位置可以从转录本对应的mRNA的序列文件的索引中计算该CDS区域对应的DNA序列,然后转成把DNA序列通过碱基氨基酸关系表转成相应的氨基酸序列,把突变前后的氨基酸序列比较,定位出氨基酸发生改变的位置及氨基酸的变化,从而映射出蛋白水平的突变结果,进一步,遍历该基因结构注释信息中的 CDS区域,计算出发生改变的基因组位置及碱基改变,从而映射出基因组DNA水平的突变情况。
[0045]对于基因组DNA水平的突变结果,根据基因结构注释文件中该基因的⑶S区域说明,计算出相应CDS编码区突变发生的位置。然后把该段CDS的DNA序列根据区域注释也提取出来并转换成相应的氨基酸序列,最后得到相应的蛋白水平的改变情况。[〇〇46]映射的结果文件包含了基因组DNA,CDS编码区(RNA)及蛋白质水平的突变对应关系。用户可以根据需要将某一层面的突变结果统一应用到下一步的研究中。[〇〇47]实施上述方法的具体实例如下:[〇〇48]从PubMed文章中手工挖掘常见遗传病的风险突变位点如图2所示,利用患者的全外显子测序结果和生物信息突变(单碱基突变和小片段插入缺失)挖掘工具及流程可以到的相应的突变注释结果,一般为基因DNA水平的突变。而文献研究人员常采用的突变描述方式为CDS编码区突变和蛋白水平突变结果。因此这里应用文献挖掘的结果,需要先对搜集的突变映射到基因DNA水平的突变。[〇〇49]根据上述方法,得到映射的结果文件包含了基因组DNA,CDS编码区(RNA)及蛋白质水平的突变对应关系,如图3所示。
[0050]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种DNA及蛋白质水平突变分析方法,其特征在于,包括以下步骤:1)读取基因突变文件,格式化处理成标准名称;2)索引转录本序列、基因信息和基因转录本注释信息、构建氨基酸密码子对应关系表;3)判断突变发生的水平、突变的模式;判断突变命名是蛋白质水平突变或是基因组DNA 水平突变或是CDS编码区突变;4)根据步骤3)的判断结果,分别进入不同的水平突变映射流程,得到三种突变命名的 映射关系。2.根据权利要求1所述的一种DNA及蛋白质水平突变分析方法,其特征在于,步骤1)所 述格式化处理成标准名称,方法为:101)判断基因突变文件含有的是基因名还是转录本名;102)含有基因名则进入步骤2);103)含有转录本名则去除转录本版本号后转基因名,进入步骤2)。3.根据权利要求1所述的一种DNA及蛋白质水平突变分析方法,其特征在于,步骤2)所 述构建氨基酸密码子对应关系表的步骤为:201)构建基因名与转录本名之间的映射关系;202)提取转录本的CDS编码区位置及碱基序列并映射相应的氨基酸密码子序列。4.根据权利要求1所述的一种DNA及蛋白质水平突变分析方法,其特征在于,步骤4)中, 突变命名为蛋白质水平突变的映射流程为:401)读入蛋白质水平突变结果后,根据氨基酸突变的位数,计算出相应CDS编码区域发 生突变的位置;402)上一步骤会列出所有可能的CDS编码区域突变,对这些CDS编码区突变用参考序列 所在位置的碱基来去除不匹配结果,过滤以后得到CDS编码区域突变位置;403)根据CDS突变发生的位置,使用转录本结构注释信息,找到突变点在基因组上的位 点及碱基改变。5.根据权利要求1所述的一种DNA及蛋白质水平突变分析方法,其特征在于,步骤4)中, 突变命名为基因组DNA水平突变的映射流程为:411)对于基因组DNA水平的突变结果,根据基因结构注释文件中该基因的CDS区域说 明,计算出相应CDS编码区突变发生的位置;412)把该段CDS的DNA序列根据区域注释提取出来并转换成相应的氨基酸序列,最后得 到相应的蛋白质水平的改变情况。6.根据权利要求1所述的一种DNA及蛋白质水平突变分析方法,其特征在于,步骤4)中, 突变命名为CDS编码区突变的映射流程为:421)已知CDS突变发生的位置及突变的碱基变化,根据CDS突变为位置从转录本对应的 mRNA的序列文件的索引中计算该CDS区域对应的DNA序列;422)把DNA序列通过碱基氨基酸关系表转成相应的氨基酸序列,把突变前后的氨基酸 序列比较,定位出氨基酸发生改变的位置及氨基酸的变化,从而映射出蛋白水平的突变结 果;423)遍历该基因结构注释信息中的CDS区域,计算出发生改变的基因组位置及碱基改 变,从而映射出基因组DNA水平的突变情况。
【文档编号】G06F19/18GK106021983SQ201610319389
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】薛成海, 龚永辉, 王晓君
【申请人】万康源(天津)基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1