一种基因注释方法和系统的制作方法

文档序号:6605016阅读:248来源:国知局
专利名称:一种基因注释方法和系统的制作方法
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基因注释方法和系统。
背景技术
基因注释,即在基因组序列上标定基因位置与组成结构,是基因组学研究的一个 必需步骤和基本前提。注释结果的好坏直接影响到后续研究的有效性和准确性。随着基因 组学和生物信息学的不断发展,多种多样的基因结构注释方法和软件日益涌现。总体上可 分为基于序列内在特征与统计模型的de novo方法和基于序列相似性的方法。但是,现阶 段的单一算法的基因注释工具在真核生物基因结构预测,特别是可变剪接形式等方面的敏 感性和准确性方面仍然存在着巨大的技术瓶颈,需要大量的人工检查和验证的后续工作。

发明内容
本发明要解决的一个技术问题是提供一种基因注释方法,可以提高基因注释结果 的准确性。根据本发明的一个方面,提供一种基因注释方法,包括采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位 置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比 对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法 整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。根据本发明的基因注释方法的一个实施例,还包括步骤运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及 基因组定位,获得目标基因组的表达序列数据集;对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋 白质序列数据集;比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获 得含有可变剪接形式的基因注释结果。根据本发明的基因注释方法的一个实施例,采用先比对后组装策略或者先组装后 比对策略进行所述转录组序列组装及基因组定位。根据本发明的基因注释方法的一个实施例,上述比较并整合获得的综合基因预测 结果和表达基因数据集的步骤包括对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情 况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情 况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。根据本发明的基因注释方法的一个实施例,采用基于序列相似性的基因注释方法 将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括基于序列相似性的基因预测工具NSCAN、Geneffise, TWAIN、或PASA,或者采用常规 的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标 基因组上。根据本发明的基因注释方法的一个实施例,根据所述目标基因组上潜在基因的位 置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及 相应的编码序列的步骤包括将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位 置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序 列。本发明的基因注释方法,通过统计学模型预测潜在基因的位置,可能发现未知基 因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测 结果整合了两种方法得到的结果,不仅提高了精度,又发现未知基因。进一步,在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能 够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。本发明要解决的一个技术问题是提供一种基因注释系统,可以提高基因注释结果 的准确性。根据本发明的另一方面,提供一种基因注释系统,包括统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标 基因组上潜在基因的位置;相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列 和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上 潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加 权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。根据本发明的基因注释系统的一个实施例,还包括转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转 录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表 达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基 因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有 可变剪接形式的基因注释结果。根据本发明的基因注释系统的一个实施例,转录组序列组装及定位装置采用先比 对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。
根据本发明的基因注释系统的一个实施例,可变剪接基因注释装置对于所述综合 基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转 录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结 果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录 组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。根据本发明的基因注释系统的一个实施例,结果整合与筛选装置用于将获得的所 述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为 统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合 预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。本发明的基因注释系统,通过统计基因预测装置预测潜在基因的位置,可能发现 未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结 构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同 时也可能发现未知基因。


图1示出本发明的基因注释方法的一个实施例的流程图;图2示出本发明的基因注释方法的另一个实施例的流程图;图3示出本发明的基因注释方法的一个应用例的流程图;图4示出本发明的基因注释系统的一个实施例的框图;图5示出本发明的基因注释系统的另一实施例的框图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。联合多方面预测结果的综合性注释方法被证明为更加有效和准确的基因注释方 法。尤其是加入了生物体自身基因表达数据支持后的注释结果,在基因结构预测的准确性 方面得到有效提升,大大减少了后续人工查错和验证的工作量,并使得大规模自动化流程 化的基因注释结果更加可靠,进而提高了生产效率。图1示出本发明的基因注释方法的一个实施例的流程图。如图1所示,在步骤102,采用基于序列特征与统计模型的基因预测方法获得目标 基因组上潜在基因的位置。可以采用多种基于序列特征与统计模型的基因预测方法进行基 因预测。根据不同算法平行地获取多个预测结果有益于提高基因注释的准确性。在步骤104,采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源 保守序列比对到目标基因组上,标记目标基因组上相似基因的位置。可以尽可能多的比较 已知基因数据库,如非冗余蛋白质数据库、表达序列标签(Expressed Sequence Tag,EST) 数据库、UniGene数据库、保守序列数据库以及重复序列数据库等等。通过和多个已知基因 数据库进行比较,能够更准确地标定基因组序列中潜在基因的范围。在步骤106,根据目标基因组上潜在基因的位置和相似基因的位置,采用加权投票 的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。综合基因预测结 果包括基因的开始和结束位置、编码序列等信息。进一步,可以根据基因编码序列获得蛋白质序列数据集。在该实施例中,通过统计学模型预测潜在基因的位置,可能发现未知基因,根据已 知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测结果整合 了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。图2示出本发明的基因注释方法的另一个实施例的流程图。在步骤202,基于序列特征和统计模型的基因预测。采用多种基于序列特征和统 计模型的基因预测方法,获取目标基因组序列上潜在基因的位置。采用的预测算法包括但 不限于,隐马科夫模型(HiddenMarkov model, HMM)、人工神经网络(Artificial Neural Network, ANN)、支持向量机(Support Vector Machine, SVM)、贝叶斯网络(Bayesian Networks Toolbox,BNT)等。可以采用的如Genscan、Glimmer. HMM等预测工具。在采用 这些预测工具时,可以有针对性地根据目标物种的基因组特征选择预测模型并调整训练参 数。在步骤204,基于序列相似性比对的基因预测。采用基于序列相似性的基因注释方 法,通过与已知基因序列和物种间同源保守序列进行序列比对,标记目标基因组上相似序 列的位置和基因结构。可采用基于序列相似性的基因预测工具如NSCAN、GeneWise、TWAIN、 PASA等,也可采用常规的序列比对软件BLAST、GMAP、sim4等。在步骤206,联合多证据加权投票的基因注释。将上述基因预测和序列比对结果 作为支持证据,采用加权投票的方法,整合并筛选预测结果,获得一套综合基因预测结果及 相应的编码序列和蛋白质序列数据集。可以运用整合预测工具,如GLEAN、JIGSAW、EVM等。 将步骤202与步骤204中获得的不同结果转换为统一的标准格式,如GFF3. 0格式,并根据 不同支持证据的可信度与可靠性设定不同的权重和阈值。在步骤208,基于转录序列组装的基因注释,运用目标生物体及其近亲物种的高 通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据 集;在步骤210,对步骤208得到的所有表达序列进行编码区预测,寻找最优的读码框 及其相应的蛋白质序列数据集。读码框是开放读码框的简称,其不含终止子、由编码氨基酸 的三联体组成的连续DNA序列,能翻译成蛋白质。该步骤主要用于区分表达序列的类型编 码还是非编码,进一步获取编码序列对应的蛋白质序列。在步骤212,比较并整合步骤206所得到的综合基因预测结果与步骤210所得到 的表达基因数据集,最终针对目标基因组序列获得含有可变剪接(alternative splicing) 形式的高精度基因注释结果。表达基因数据集是指正常表达并能够编码蛋白质的基因(DNA 序列),即在表达序列数据集中经过蛋白质编码区预测得到能够编码蛋白质的那部分DNA 序列。通常来说,表达基因序列是基因组表达序列的一个子集。步骤212是对步骤206所 得结果的修正与完善。对于基因预测结果与转录组序列组装及基因组定位结果高度一致的 情况,应采纳目标物种自身转录组序列组装及基因组定位结果,替换基因预测结果。对于差 异较大的情况,可分别将预测结果与转录组序列组装及基因组定位结果视作同一基因的不 同表达形式进行注释。此外,对注释结果按照证据支持的类型和可信度进行分类,供后续的 分析和研究使用。根据本发明的一个实施例,在缺乏高通量转录组测序数据的情况下,也可以不必
7进行后续的步骤208、210、212,将整合后的基因预测结果作为有效的基因注释结果供后续 分析和研究。在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能够在很 大程度上提高基因注释的准确性,补充并完善基因注释结果。因此,在高通量转录组测序数 据可用的前提下,可以进一步进行步骤208 转录组序列组装及定位。可采用的策略包括先 比对后组装或者先组装后比对等,获取并在目标基因组上定位表达基因的转录本序列。本领域的技术人员应当理解,本发明在综合多方面支持证据的基础上获取高精度 基因注释结果,所提及的支持证据不局限于基因预测结果与相似序列比对结果等。凡有助 于标定目标基因组序列上基因区域范围的数据同样适用于本方法,均可作为支持证据加入 到基因注释过程。上述实施例的基因注释方法,采用了分层次、分权重的注释流程,通过序列特征预 测、序列相似性预测、混合预测、多证据联合基因结构预测和转录数据支持的模型校正等多 个步骤,可获得较为精确并含有可变剪接形式基因结构注释结果。下面结合图3对本发明的基因注释方法的一个应用例进行详细描述。图3示出本发明的基因注释方法的一个应用例的流程图。该应用例以已公开 的家养大豆(Glycine max)基因组(http://www.phytozome.net/cgi_bin/gbrowse/ soybean/#search)中获取的一段长度为177kp的序列片段SCafTold_41 (碱基序列为AGA ACGATATCCACGTTCCAGAGATAGCATTTATGTGAAGAGAAATGGTTTAATTAAGAT. . . <177600bp>. . . AAAG ATTAAAAAAAATAGAGATTAAAAAAGTACTGATGTACAAAAAGACAA)为例,在进行注释之前进行数据及 工具准备,包括待注释的目标基因组序列、基因预测软件、已知蛋白质及表达序列数据库、 高通量转录组测序数据、序列比对软件等。该应用例包括如下步骤步骤302,对基因组序列进行基于序列特征和统计模型的从头预测(Ab initio) (参见http://en. wikipedia. org/wiki/Gene_prediction)。由于许多基因固有的特征而 难于获得外源证据,从头预测方法在基因预测过程中很有必要。这种方法直接在基因组序 列上系统地寻找可能的蛋白质编码基因的信号。在该序列中采用Genscan基于植物特征参 数进行模型训练并预测,共得到16个预测基因。预测结果如表1所示。表1基于基因序列特征的预测结果 步骤304,对该基因组进行基于序列同源性的基因预测。分别使用相近物种的已知 基因数据库,如拟南芥、葡萄、黄瓜、木瓜、水稻等植物的蛋白质序列数据库,与目标基因组 序列进行序列比对,获取高度相似的同源序列位置。再运用基于序列相似性的基因预测软 件GeneWise,结合相似序列比对结果,从该片段上预测出潜在基因片段,得到52个预测结 果,如表2所示。表2基于同源基因相似性的预测结果
步骤306,运用表达序列比对软件Sim4将大豆及相近物种如拟南芥、葡萄、黄瓜、 木瓜、水稻等的EST/cDNA序列与基因组序列进行比较,得到潜在表达序列的范围。再用预 测工具PASA在该序列上标记出26个可能的基因片段。如表3所示表3基于表达序列EST/cDNA相似性的预测结果 步骤308,将各部分预测结果转换为统一标准格式,例如gfT3. 0格式,将这些预测 结果作为支持证据,依照预测可信度设定相应的权重,本实施例中Genscan从头预测结果 的权重设为LGeneWise蛋白质同源序列预测结果的权重设为1,PASA表达序列比对结果的 权重设为2。此处,表达序列比对结果的权重高于从头预测结果以及蛋白质同源序列预测结 果,在不完全吻合的情况下能够优先选择表达序列比对结果。本领域的技术人员应当理解, 技术人员可以根据需要进行权重的设置。将各方面支持证据输入整合预测软件GLEAN中进 行整合处理,设定阈值为3,即至少有一个相似序列支持和一个从头预测证据支持,或者有 多个相似序列支持。在该基因组序列上共获得13个基因注释结果,包含13条蛋白质编码 序列。如表4所示表4联合多证据加权的综合基因注释结果 步骤310,用先定位后组装的策略,用转录组序列定位软件TopHat将大豆转录组 RNA-Seq测序数据定位到基因组相应位置,然后用工具Cufflinks进行转录组组装,共得到 21个转录本注释结果。对这21个转录本进行编码区预测,区别编码序列与非编码序列,共 得到17条完整蛋白质编码序列。步骤312,比较并融合预测结果与转录组序列组装及基因组定位结果,得到最终注 释结果。即,该片段上含有12个基因区域共23个转录本,其中19个转录本含有蛋白质编 码区,有对应的蛋白质序列,另外4个转录本注释为非编码序列。如表5所示表5高通量转录组数据辅助的基因注释结果 通过进一步的基因功能分析表明,通过本发明上述应用例注释出的19个蛋白质 序列均有相关的蛋白质功能结构域,其中14个蛋白质能够在其他物种蛋白质数据库中找 到高度相似的序列。尤其是转录组序列组装所支持的注释结果不仅基因结构完整准确,而 且获得了可靠的蛋白质的功能注释信息。本发明的多证据联合的基因注释方法,在注释准确性方面相对于单一方法的基因 预测结果有着有效的提高。尤其在加入物种自身转录组测序数据辅助后,在注释结果可靠 性方面有了进一步提升。本发明中的实施例仅是用以解释本发明的实施方案,并不用于限 定本发明。凡在本发明的原则和精神之内所做的替换、修改和改进等均包含在本发明的权 利要求范围之内。图4示出本发明的基因注释系统的一个实施例的框图。如图4所示,该实施例的 基因注释系统包括统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43。 其中,统计基因预测装置41,用于通过基于序列特征与统计模型的基因预测方法获得目标 基因组上潜在基因的位置;相似基因比对装置42,用于采用基于序列相似性的基因注释方 法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似 基因的位置;结果整合与筛选装置43,用于根据统计基因预测装置41获得的目标基因组上 潜在基因的位置和相似基因比对装置42获得的目标基因组上的相似基因的位置,采用加 权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。统计基因 预测装置41可以采用多种基于序列特征与统计模型的基因预测方法进行基因预测,从而 提高基因注释的准确性。相似基因比对装置42通过和多个已知基因数据库进行比较,能够 更准确地标定基因组序列中潜在基因的范围。根据本发明的一个实施例,结果整合与筛选 装置将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的 不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和 阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。在上述实施例中,通过统计基因预测装置预测潜在基因的位置,可能发现未知基 因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结构,精度 相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同时也可能 发现未知基因。图5示出本发明的基因注释系统的另一实施例的框图。该实施例的基因注释系统 包括统计基因预测装置41、相似基因比对装置42、结果整合与筛选装置43、转录组序列组 装及定位装置54、编码区预测装置55和可变剪接基因注释装置56。统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43可以参见图4中的对应描述,为简洁起见 在此不再详述。其中,转录组序列组装及定位装置54,用于通过运用目标生物体及其近亲物 种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序 列数据集;编码区预测装置55,用于对转录组序列组装及定位装置54获得的目标基因组的 表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因 注释装置56,用于比较并整合结果整合与筛选装置43获得的综合基因预测结果和编码区 预测装置55获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因 注释结果。转录组序列组装及定位装置54可以采用先比对后组装策略或者先组装后比对 策略进行转录组序列组装及基因组定位。在一个实施例中,可变剪接基因注释装置对于综 合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身 转录组序列组装及基因组定位结果替换综合基因预测结果;对于综合基因预测结果和转录 组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组 装及基因组定位结果作为同一基因的不同表达形式进行注释。本领域的技术人员应当理解,对于图4、5中的各个装置,可以通过单独的技术处 理识别实现,或者将其集成为一个独立的设备实现。在图4和图5中用框示出以说明它们 的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任 意组合来实现。举例来说,一个或者两个功能块都可以利用运行在微处理器、数字信号处理 器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、 例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计 算机可读介质中。计算机可读介质可以包括一个或者多个存储设备,例如,包括RAM存储 器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM 或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载 波。本领域技术人员将意识到硬件、固件和软件配置在这些情况下的可替换性,以及 如何最好地实现每个特定应用地所述功能。本发明中所采用的多证据联合基因注释方法,有效整合了传统基因注释流程的优 点,并在很大程度上克服了各自的弊病,如预测工具物种特异性偏好,遗漏低表达量基因和 物种特异性基因,较高的假阳率,基因结构(外显子/内含子)错误等等。而分层次、分权 重投票的注释策略更保证了整合注释结果优于预测软件独立注释结果。进一步运用源自目 标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程 度的获取基因可变剪接形式的注释,以及更好的界定编码区与非编码区。本发明有益效果 在于,在综合传统基因注释方法的基础之上得到了更加丰富、更加准确的注释信息,能够很 好的应用于流程化的基因注释工作中,减少因为校正注释错误而额外投入的劳动量。本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明 限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描 述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理 解本发明从而设计适于特定用途的带有各种修改的各种实施例。
1权利要求
一种基因注释方法,其特征在于,包括采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
2.根据权利要求1所述的基因注释方法,其特征在于,还包括运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因 组定位,获得目标基因组的表达序列数据集;对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质 序列数据集;比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获得含 有可变剪接形式的基因注释结果。
3.根据权利要求2所述的基因注释方法,其特征在于,采用先比对后组装策略或者先 组装后比对策略进行所述转录组序列组装及基因组定位。
4.根据权利要求2所述的基因注释方法,其特征在于,所述比较并整合获得的综合基 因预测结果和表达基因数据集的步骤包括对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采 用目标物种自身转录组序列组装及基因组定位结果替换所述综合基因预测结果; 和/或对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分 别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形 式进行注释。
5.根据权利要求1所述的基因注释方法,其特征在于,所述采用基于序列特征与统计 模型的基因预测方法获得目标基因组上潜在基因的位置的步骤包括采用多种基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置。
6.根据权利要求1至5中任意一项所述的基因注释方法,其特征在于,所述基于序列特 征与统计模型的基因预测方法包括隐马科夫模型、人工神经网络、支持向量机、和/或贝叶 斯网络。
7.根据权利要求1至5中任意一项所述的基因注释方法,其特征在于,所述采用基于序 列相似性的基因注释方法将已知基因序列和物种间同源保守序列比对到目标基因组上的 步骤包括基于序列相似性的基因预测工具NSCAN、Geneffise, TWAIN、或PASA,或者采用常规的序 列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标基因组上。
8.根据权利要求1至5中任意一项所述的基因注释方法,其特征在于,根据所述目标基 因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得 综合基因预测结果及相应的编码序列的步骤包括将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的 不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
9.一种基因注释系统,其特征在于,包括统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标基因 组上潜在基因的位置;相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列和物 种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上潜在 基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加权投 票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
10.根据权利要求9所述的基因注释系统,其特征在于,还包括转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转录组 测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表达序 列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基因预 测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有可变 剪接形式的基因注释结果。
11.根据权利要求10所述的基因注释系统,其特征在于,所述转录组序列组装及定位 装置采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。
12.根据权利要求10所述的基因注释系统,其特征在于,所述可变剪接基因注释装置 对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目 标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综 合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预 测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
13.根据权利要求9至12中任意一项所述的基因注释系统,其特征在于,所述结果整合 与筛选装置用于将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基 因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不 同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的 编码序列。
全文摘要
本发明公开一种基因注释方法和系统。该方法包括采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。本发明中的多证据联合基因注释方法和系统,有效整合了传统基因注释方法的优点。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释。
文档编号G06F19/00GK101894211SQ201010213759
公开日2010年11月24日 申请日期2010年6月30日 优先权日2010年6月30日
发明者张博, 徐讯 申请人:深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1