一种快速自动分析原核生物蛋白质基因组学数据的方法

文档序号:10594435阅读:229来源:国知局
一种快速自动分析原核生物蛋白质基因组学数据的方法
【专利摘要】本发明提供一种快速自动分析原核生物蛋白质基因组学数据的方法,用户只需提供质谱数据与对应的数据库文件,并设置简单的检索参数;本发明既可完成蛋白质基因组数据的检索,同时还能够兼容用户自定义的数据检索结果,从而提高了蛋白质组学数据的鉴定覆盖率;本发明预先整合了不同算法的搜库引擎,弥补单一检索方法的不足;本发明还能兼容用户自定义的搜库结果,具有很好的兼容性,最大限度的提高了肽段鉴定覆盖率;本发明中自动完成新基因的功能注释,并首次实现了蛋白质翻译后修饰的大规模鉴定以及非标记定量蛋白质组学的分析,真正实现了蛋白质基因组学数据的自动快速深度分析。
【专利说明】
-种快速自动分析原核生物蛋白质基因组学数据的方法
技术领域
[0001] 本发明设及蛋白质基因组数据分析方法,具体设及一种自动快速分析原核生物蛋 白质基因组学数据的方法。
【背景技术】
[0002] 随着高通量DNA测序技术的飞速发展,人类完成了越来越多的物种的基因组测序。 基因组测序的目的是更加了解参与生物学功能的基因组成W及功能。因此,基因组注释的 基本任务是确定基因与其他元件的位置和结构,并确定运些基因和元件具体的具有怎样的 生物学功能。目前,运种基因组注释方法主要依赖于DNA与RNA序列信息;而相比于基因组或 转录组注释,蛋白质组学则能够直接研究编码基因翻译出的蛋白质产物,因此蛋白质组学 比基因组或转录组学注释基因组获得更直接的结果,同时蛋白质组学还可W发现由于知识 不足导致的基因从头预测算法遗漏的基因和基因结构注释的错误,W及蛋白质存在的特有 的翻译后修饰现象。因此,要完成对基因组的更加精确更加完整的注释,则需要整合多种类 型的组学数据进行注释。近年来,随着生物质谱技术的迅速发展,实现了蛋白质的高覆盖鉴 定,利用蛋白质组学数据进行基因组注释也成为可能,并兴起了一个利用蛋白质组学数据 进行基因组注释的新的研究方向-蛋白质基因组学(蛋基组学,Proteogenomics )。
[0003] 蛋基组学,就是利用蛋白质组学数据,结合基因组与转录组等多组学数据对基因 组进行注释。最先由化ffe等人于2004年首次提出,采用高通量质谱数据匹配基因组直接翻 译得到蛋白序列的方法,在仅有SlOkb大小的细菌基因组上直接鉴定开放阅读框(open reading frame,0RF),通过此方法,Jaffe等人对原有基因组信息进行了验证与补充,并修 订了约10%的0RF。随着蛋白质组学技术手段日益成熟,高灵敏度、高精度的质谱仪使得完 全覆盖蛋白质组也成为可能,如人类蛋白质组数据中84%的蛋白已被鉴定到,因此,蛋白质 组数据不仅可W实现对基因组序列的重新注释、发现新基因,还能用于系统发现蛋白质特 有的翻译后事件(如翻译后修饰和信号肤等)。虽然目前蛋白质基因组学的研究发展较快, 但是也存在W下几个方面的问题:a.在数据库构建方面,整合多组学数据库,能获得覆盖度 更广的蛋白序列数据库,但也会造成数据库过大,使得质谱鉴定捜索引擎无法应对;b.大部 分研究数据存在质量控制问题,比如仅通过PSM水平的全局FDR直接获得鉴定蛋白质集合, 没有对新鉴定到的肤段进行精确的FDR控制;C.多数据整合和质量控制工具非常缺乏,无法 实现增量式的基因组注释,运在很大程度上阻碍了蛋白质基因组学的发展;d.海量的质谱 数据,也使得数据的共享和传输非常不便,也限制了蛋白质基因组学的推广。
[0004]目前,针对蛋白质基因组数据分析的主要软件包括Peppy、PPLine、PGTools与 Genosuite等,然而,运些软件设定的方法局限性比较高,仅适用于特定高分辨质谱仪器产 生的数据W及几种常见的数据库检索程序,并且,运些软件的使用设定均较为复杂,需要用 户具有较深的蛋白质组学研究方面的背景,应用范围也受到很大的限制,并未实现数据的 自动快速分析;此外,运些软件也无法应对目前海量的质谱采集数据,W及由于数据库的过 大带来的捜索空间的膨胀,使得蛋白质基因组学的研究受到限制。

【发明内容】

[0005] 有鉴于此,本发明的目的在于提出了一种自动快速分析蛋白质基因组数据的方 法,克服了 W往蛋白质基因组学数据分析复杂繁琐的步骤,能够实现蛋白质基因组学数据 的一键式分析,本发明还首次实现蛋白质基因组数据的蛋白质翻译后修饰的大规模鉴定与 非标记定量蛋白质组学分析。
[0006] 为了实现上述发明目的,本发明提供W下技术方案:
[0007] 本发明提供了一种快速自动分析原核生物蛋白质基因组学数据的方法,包括W下 步骤:
[0008] 1)对基因组数据进行六阅读框翻译,对转录组数据、EST序列W及非编码RNA数据 进行=阅读框翻译,构建蛋白序列数据库文件,对原始质谱数据进行格式转化得到转化后 的质谱数据,对数据库检索参数定义;
[0009] 2)选择具有不同算法的数据检索引擎,对步骤1)所述转化后的质谱数据进行数据 库检索,得到检索结果;
[0010] 3)整合所述步骤2)得到的检索结果和用户自定义的捜索引擎检索鉴定结果,并将 鉴定到的肤段回贴基因组,进行假阳性概率计算,根据计算结果删除假阳性肤段,得到筛选 后的肤段信息;
[0011] 4)根据所述步骤3)得到的筛选后的肤段,一类用于验证已注释编码基因的表达和 结构,另一类用于发现新基因和校正已注释基因的结构,得到新基因,并综合转录组信息, 利用对应的转录单元对重注释的新基因进行验证;
[0012] 5)对所述步骤4)得到的新基因进行功能注释;
[0013] 6)采用蛋白质非限制性翻译后修饰分析方法,对所述步骤1)中得到的转化后的质 谱数据进行蛋白质翻译后修饰的大规模鉴定;
[0014] 7)对所述步骤1)中的质谱数据进行全细胞蛋白的非标记定量分析。
[0015] 优选的,所述步骤1)中基因组、转录组、EST序列W及非编码RNA数据多组学数据进 行整合,去除序列相同的冗余数据,构建了蛋白序列数据库。
[0016] 优选的,所述步骤2)中不同算法的数据检索引擎为MSGFPlusa !Tandem、 MSAmanda、OMSSA 和Come t 的一种或多种。
[0017] 优选的,结合全局FDR和类别FDR筛选策略,所述步骤3)中筛选后的肤段信息为假 阳性率<1 %的肤段信息,全局FDR筛选策略具体为肤谱匹配水平的FDR值小于1 %的肤段信 息,类别FDR筛选策略具体为新鉴定到的肤段的FDR值小于1 %的肤段信息。
[0018] 优选的,所述步骤4)中新基因的鉴定方法具体是:将鉴定到的所有肤段与蛋白质 数据库进行全序列比对,能够匹配的肤段为已知的蛋白肤段,不能匹配上的肤段为新肤段, 将所述新肤段比对到基因组中,预测新基因的起始与终止位置,并鉴定是否存在已知基因 结构的改变。
[0019] 优选的,所述步骤4)中新基因的序列的鉴定方法具体是:根据新基因的长度, unique肤段数,肤段长度与得分,是否具有起始密码子,是否具有稀有密码子来预测新基因 序列W及基因结构改变的序列。
[0020] 优选的,所述unique肤段数为〉2,所述起始密码子为ATG、GTG、TTG或CTG,所述起始 密码子出现概率:ATG〉GTG〉TTG 乂 TG,所述稀有密码子为ATA或ATT。
[0021] 优选的,所述步骤5)中新基因功能注释是通过化iprot数据库对鉴定到的新基因 进行GO功能注释。
[0022] 优选的,所述步骤6)中蛋白质翻译后修饰的大规模鉴定为:主要利用MODa和 InspecT数据库行蛋白质翻译后修饰检索,再利用化imod数据库对翻译后修饰类型进行匹 配。
[0023] 优选的,所述步骤7)中全细胞蛋白的定量分析为:主要利用X!化ndem数据库检索 引擎进行蛋白定量检索,根据所述定量检索的结果,采用统计谱图数的方法进行蛋白定量 统计。
[0024] 本发明提供一种快速自动分析原核生物蛋白质基因组学数据的方法,用户只需提 供质谱数据与对应的数据库文件,并设置简单的检索参数;本发明既可完成蛋白质基因组 数据的检索,同时还能够兼容用户自定义的数据检索结果,从而提高了蛋白质组学数据的 鉴定覆盖率;本发明中预先整合了多种不同算法的捜库引擎,弥补单一检索方法的不足;同 时,本发明还能兼容用户自定义的捜库结果,具有很好的兼容性,并最大限度的提高了肤段 鉴定覆盖率;本发明中自动完成新基因的功能注释,并首次实现了蛋白质翻译后修饰的大 规模鉴定W及非标记定量蛋白质组学的分析,真正实现了蛋白质基因组学数据的自动快速 深度分析。
[0025] 进一步的,本发明中预测新基因序列与基因模式改变的序列,不仅考虑了新基因 的长度,匹配的肤段数,肤段得分W及长度,最重要的是考虑了起始密码子出现的概率W及 稀有密码子,提高了新基因与结构改变的基因的鉴定率。
【附图说明】
[0026] 图1为一种自动快速分析原核生物蛋白质基因组学数据的方法的流程图。
【具体实施方式】
[0027] 本发明提供了一种快速自动分析原核生物蛋白质基因组学数据的方法,包括W下 步骤:
[00%] 1)对基因组数据进行六阅读框翻译,对转录组数据、EST序列W及非编码RNA数据 进行=阅读框翻译,并枚举起始密码子,构建蛋白序列数据库文件,对原始质谱数据进行格 式转化得到转化后的质谱数据,对数据库检索参数定义;
[0029] 2)选择具有不同算法的数据检索引擎,对步骤1)所述转化后的质谱数据进行数据 库检索,得到检索结果;
[0030] 3)整合所述步骤2)得到的检索结果和用户自定义的捜索引擎检索鉴定结果,并将 鉴定到的肤段回贴基因组,进行假阳性概率计算,根据计算结果删除假阳性肤段,得到筛选 后的肤段信息;
[0031] 4)根据所述步骤3)得到的筛选后的肤段,一类用于验证已注释编码基因的表达和 结构,另一类用于发现新基因和校正已注释基因的结构,得到新基因,并综合转录组信息, 利用对应的转录单元对重注释的新基因进行验证;
[0032] 5)对所述步骤4)得到的新基因进行功能注释;
[0033] 6)采用蛋白质非限制性翻译后修饰分析方法,对所述步骤I)中得到的转化后的质 谱数据进行蛋白质翻译后修饰的大规模鉴定;
[0034] 7)对所述步骤1)中的质谱数据进行全细胞蛋白的非标记定量分析。
[0035] 本发明提供的一种快速自动分析原核生物蛋白质基因组学数据的方法,既可完成 蛋白质基因组数据的检索,同时还能够兼容用户自定义的数据检索结果,从而提高了蛋白 质组学数据的鉴定覆盖率;并且,本发明还首次实现了蛋白质翻译后修饰的大规模鉴定W 及非标记定量蛋白质组学的分析,真正实现了蛋白质基因组学数据的自动快速分析。
[0036] 本发明中,对基因组数据进行六阅读框翻译,对转录组数据、EST序列W及非编码 RNA数据进行=阅读框翻译,构建蛋白序列数据库文件,对原始质谱数据进行格式转化得到 转化后的质谱数据,对数据库检索参数定义。
[0037] 本发明整合了所述步骤1)中基因组、转录组、EST序列W及非编码RNA数据多组学 数据,去除序列相同的冗余数据,构建了蛋白序列数据库。
[0038] 得到转化后的质谱数据后,本发明对转化后的质谱数据进行不同算法数据库检 索,所述检索引擎优选为MSGFP Ius、X! I^ndem、MSAmanda、OMSSA和Come t的一种或多种。
[0039] 得到检索结果后,本发明对检索结果和用户自定义的检索鉴定结果进行整合,整 合后的结果进行假阳性概率计算,根据计算结果删除假阳性肤段。本发明优选结合全局FDR 和类别FDR筛选策略,所述筛选后的肤段信息为假阳性率<1%的肤段信息,全局FDR筛选策 略具体为肤谱匹配水平的FDR值小于1%的肤段信息,类别FDR筛选策略具体为新鉴定到的 肤段的抑R值小于1 %的肤段信息。
[0040] 得到筛选后的肤段信息后,一类用于验证已注释编码基因的表达和结构,另一类 用于发现新基因和校正已注释基因的结构,得到新基因,并综合转录组信息,利用对应的转 录单元对重注释的新基因进行验证。
[0041] 本发明对所述新基因的鉴定方法具体优选为:将鉴定到的所有肤段与蛋白质数据 库进行全序列比对,能够匹配的肤段为已知的蛋白肤段,不能匹配上的肤段为新肤段,将所 述新肤段比对到基因组中,预测新基因的起始与终止位置,并鉴定是否存在已知基因结构 的改变。
[0042] 本发明对所述新基因的序列的鉴定方法优选对下列因素进行限定:根据新基因的 长度,unique肤段数,肤段长度与得分,是否具有起始密码子,是否具有稀有密码子来预测 新基因序列W及基因结构改变的序列。
[0043] 本发明对所述unique肤段数优选为〉2,所述起始密码子优选为ATG、GTG、TTG或 CTG,所述起始密码子出现概率:ATG〉GTG〉TTG 乂 TG,所述稀有密码子优选为ATA或ATT。
[0044] 得到新基因与结构改变的基因后,本发明对得到的新基因进行功能注释。所述的 新基因功能注释是通过化iprot数据库对鉴定到的新基因进行GO功能注释。
[0045] 转化后的质谱数据,本发明对转化后的质谱数据进行蛋白质翻译后修饰的大规模 鉴定和全细胞蛋白的非标记定量分析。所述蛋白质翻译后修饰的大规模鉴定优选为:主要 利用MO化和InspecT数据库行蛋白质翻译后修饰检索,再利用化imod数据库对翻译后修饰 类型进行匹配。
[0046] 同时,得到质谱数据后,本发明对质谱数据进行全细胞蛋白的非标记定量分析。本 发明中,所述全细胞蛋白的定量分析优选为:主要利用X!化ndem数据库检索引擎进行蛋白 定量检索,根据所述定量检索的结果,采用统计谱图数的方法进行蛋白定量统计。
[0047]下面结合实施例对本发明提供的一种快速自动分析原核生物蛋白质基因组学数 据的方法进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。
[004引实施例1和实施例2中质谱数据分别来自已发表的文章[Muller,S.A. ,Findeiss, S.,Pernitzsch,S.R.,Wissenbach,D.K.,Stadler,P.F.,Hofacker,I.L.,von Bergen,M., and Kalkhof ,S, ''Identification ofnew protein coding sequences and signal peptidase cleavage sites of Helicobacter pylori strain 26695by proteo邑enomics,,,Journal ofproteomics,2013,86,27-42]*^[Albrethsen,J.,Agner,J., Piersma,S.R.,Hojrup,P.,Pham,T.V.,Weldingh,K.,Jimenez,C.R.,Andersen,?.,and Rosenkrands, I., ''Proteomic Profiling of Mycobacterium tuberculosis Identifies Nutrient-starvation-responsive Toxin-antitoxin Systems'',Molecular&Cellular Proteomics,2013,12,1180-1191]。
[0049]实施例1幽口螺杆菌新编码基因与翻译后修饰的大规模鉴定,步骤如下:
[0化0] 1)从NCBI网站下载幽口螺杆菌全基因组序列,转录组序列,GFF格式文件,G服格式 文件,蛋白质组的蛋白库序列(1469个已知的蛋白序列),本发明运用perl语言程序,按照六 阅读/ =阅读框翻译的方法,翻译得到蛋白库文件;再利用ProteoWizard将原始数据转化为 标准的m奸格式文件;最后统一配置检索引擎捜库参数。
[0051] 2)五种不同算法的检索引擎自动进行捜库检索,并进行新基因与结构改变的基因 的鉴定,如表1所示,通过本发明的方法,共鉴定到40个新基因与4个N末端延长的基因,包括 了 317个新的unique肤段;本方法得到的鉴定结果与原文献鉴定的结果进行比较,新肤段与 新基因的鉴定数目都有很大的提高,比较结果见表1。
[0052] 表1本发明与常规方法鉴定到的新基因与结构改变的基因的数目比较 [0化3]
[0054] 3)本方法自动利用MO化与InspecT数据库检索引擎,进行蛋白质翻译后修饰检索, 并根据化imod数据库(WWW. unimod. O巧),对翻译后修饰类型进行匹配,共鉴定到307种不同 的蛋白质翻译后修饰种类,结果见表2。
[0055] 表2本发明大规模鉴定到的蛋白质翻译后修饰种类
[0化6]






[0063]
[0064] 实施例2
[0065] 结核分枝杆菌新编码基因与蛋白质非标记定量分析,步骤如下:
[0066] I)采用与实施例1同样的方法,提供结核分枝杆菌全基因组序列,转录组序列,GFF 格式文件,GBK格式文件,蛋白质组的蛋白库序列,本发明运用perl语言程序,按照六阅读和 S阅读框翻译的方法,翻译得到蛋白库文件;再利用ProteoWizard将原始数据转化为标准 的m奸格式文件;最后统一配置检索引擎捜库参数。
[0067] 2)五种不同算法的检索引擎自动进行捜库检索,并进行新基因与结构改变的基因 的鉴定,如表3所示,通过本发明的方法,共鉴定到10个新基因与9个N末端延长的基因,包括 了 559个新的unique肤段;本方法得到的鉴定结果与原文献鉴定的结果进行比较,新肤段与 新基因的鉴定数目都有很大的提高。
[0068] 3)利用ProteoWizard将原始数据转化为另外一种标准的格式文件mzXML,本方法 自动利用X!化ndem进行蛋白质定量分析与结果统计,共检测到791个显著变化的基因,其中 表达量下调的基因有306个(ratio<0.5),表达量上调的基因有485个(ratio〉1.5)。
[0069] 最后所应说明的是,W上实施例仅用W说明本发明的技术方案而非限制。尽管参 照实施例对本发明进行了详细说明,本领域的普通技术人员应当了解,本发明适用于所有 原核蛋白质基因组学的数据,对本发明的技术方案进行修改或者等同替换,都不脱离本发 明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围中。
[0070] 由W上实施例可知,采用本发明的方法,在新基因与结构改变的基因的鉴定数量 方面均有大幅提高,同时还首次鉴定到大规模的蛋白质翻译后修饰,并对蛋白进行了定量 分析。
[0071] W上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可W做出若干改进和润饰,运些改进和润饰也应 视为本发明的保护范围。
【主权项】
1. 一种快速自动分析原核生物蛋白质基因组学数据的方法,其特征在于,步骤如下: 1) 对基因组数据进行六阅读框翻译,对转录组数据、EST序列以及非编码RNA数据进行 三阅读框翻译,构建蛋白序列数据库文件,对原始质谱数据进行格式转化得到转化后的质 谱数据,对数据库检索参数定义; 2) 选择具有不同算法的数据检索引擎,对步骤1)所述转化后的质谱数据进行数据库检 索,得到检索结果; 3) 整合所述步骤2)得到的检索结果和用户自定义的搜索引擎检索鉴定结果,并将鉴定 到的肽段回贴基因组,进行假阳性概率计算,根据计算结果删除假阳性肽段,得到筛选后的 肽段ig息; 4) 根据所述步骤3)得到的筛选后的肽段,一类用于验证已注释编码基因的表达和结 构,另一类用于发现新基因和校正已注释基因的结构,得到新基因,并综合转录组信息,利 用对应的转录单元对重注释的新基因进行验证; 5) 对所述步骤4)得到的新基因进行功能注释; 6) 采用蛋白质非限制性翻译后修饰分析方法,对所述步骤1)中得到的转化后的质谱数 据进行蛋白质翻译后修饰的大规模鉴定; 7) 对所述步骤1)中的质谱数据进行全细胞蛋白的非标记定量分析。2. 根据权利要求1所述的方法,其特征在于,所述步骤1)中基因组、转录组、EST序列以 及非编码RNA数据多组学数据进行整合,去除序列相同的冗余数据,构建了蛋白序列数据 库。3. 根据权利要求1所述的方法,其特征在于,所述步骤2)中不同算法的数据检索引擎为 MSGFPI us、X! Tandem、MSAmanda、OMSSA和Come t 的一种或多种。4. 根据权利要求1所述的方法,其特征在于,结合全局FDR和类别H)R筛选策略,所述步 骤3)中筛选后的肽段信息为假阳性率〈1 %的肽段信息,全局H)R筛选策略具体为肽谱匹配 水平的FDR值小于1 %的肽段信息,类别H)R筛选策略具体为新鉴定到的肽段的FDR值小于 1 %的肽段信息。5. 根据权利要求1所述的方法,其特征在于,所述步骤4)中新基因与结构改变的基因的 鉴定方法具体是:将鉴定到的所有肽段与蛋白质数据库进行全序列比对,能够匹配的肽段 为已知的蛋白肽段,不能匹配上的肽段为新肽段,将所述新肽段比对到基因组中,预测新基 因的起始与终止位置,并鉴定是否存在已知基因结构的改变。6. 根据权利要求1或4所述的方法,其特征在于,所述步骤4)中新基因的序列以及基因 结构改变的序列的鉴定方法具体是:根据新基因的长度,unique肽段数,肽段长度与得分, 是否具有起始密码子,是否具有稀有密码子来预测新基因序列以及基因结构改变的序列。7. 根据权利要求5所述的方法,其特征在于,所述unique肽段数为>2,所述起始密码子 为ATG、GTG、TTG或CTG,所述起始密码子出现概率:ATG>GTG>TTG>CTG,所述稀有密码子为ATA 或 ATT。8. 根据权利要求1所述的方法,其特征在于,所述步骤5)中新基因功能注释是通过 Uniprot数据库对鉴定到的新基因进行GO功能注释。9. 根据权利要求1所述的方法,其特征在于,所述步骤6)中蛋白质翻译后修饰的大规模 鉴定为:主要利用MODa和InspecT数据库行蛋白质翻译后修饰检索,再利用Unimod数据库对 翻译后修饰类型进行匹配。10.根据权利要求1所述的方法,其特征在于,所述步骤7)中全细胞蛋白的定量分析为: 主要利用X! Tandem数据库检索引擎进行蛋白定量检索,根据所述定量检索的结果,采用统 计谱图数的方法进行蛋白定量统计。
【文档编号】G06F19/18GK105956416SQ201610303315
【公开日】2016年9月21日
【申请日】2016年5月10日
【发明人】杨明坤, 张珈, 洪斌, 葛峰
【申请人】湖北普罗金科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1