一种系统进化树的重建方法

文档序号：6399316阅读：1383来源：国知局

专利名称：一种系统进化树的重建方法
技术领域：
本发明属于应用生物信息学技术领域，具体涉及一种系统进化树的重建方法，主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的针对大数据的系统发育树重建并可视化。
背景技术：
系统发育树也称系统进化树(phylogenetic tree)，它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系，通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列、蛋白质序列、蛋白质结构等来构建系统发育树，或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列P性状；估计来自于同一个祖先的不同生物之间的分歧时间；识别和疾病关联的突变等。基于分子的进化研究已经应用到许多方面，如基因进化、物群划分、交配系统、物种鉴定、父亲身份测试，环境监视以及已经转移物种的疾病源的研究等(Francesca
D.Ciccarellij et al.，"Toward Automatic Reconstruction of a Highly Resolved Treeof Life, "SCIENCE，vol.311，p.1283，2006.；1.Wapinskij et al.，"Automatic genome-widereconstruction of phylogenetic gene trees, ^Bioinformaticsj vol.23，pp.1549-1558,2007.；Zhen Mengjet al.，^Construction of the Platform forPhylogenetic Analysis, ^Data Driven e-Science，pp.507-514，2011.)。以生物材料样本快速鉴定为目的的DNA条形码技术(Schindel，D.andS.E.Miller, DNA barcoding a useful tool for taxonomists.Nature, 2005.)的发展业已积累了丰富的数据，如按照 BOLD system (Schindel, D.and S.E.Miller, DNA barcodinga useful tool for taxonomists.Nature，2005.) 2012 年 11 月份的数据，以动物为例，如选用COI片段，其样本测序序列的量为247，479，是其在传统的描述的动物物种120，612的2倍多，差不多每个动物物种有2条甚至更多的序列信息；其从国际核算序列数据库联盟(International Nucleotide Sequence Database Collaboration, INSDC)成员之一的 GenBank (Michael Y.Galperin.The Molecular Biology DatabaseCollection: 201lupdate [J].Nuc1.Acids Res.2011，35:D3_D4)提取检索的初始相关序列也达625，341之多，并且每天也有将近200条的释放量。数据的积累为包含所有生物物种的系统进化树的构建做好了数据上的准备，也为怎样快速确定样本序列在系统发育树上的位置提出了需求。然而，现在的系统进化树的重建方法往往受到数据数量的限制，在兆的数量级上进行计算时，甚至有些方法根本不能完成，即使有些方法用上并行的方法、在集群式计算机上进行计算也需要几天甚至上月的时间才能完成(S.Guindon，et al.，〃New Algorithms and Methodsto Estimate Maximum-Likelihood Phylogenies:Assessing the Performance ofPhyML3.0，"Systematic Biology, vol.59，pp.307-321，2010.；A.Stamatakisj"RAxML-V1-HPC:maximum likelihood-based phylogenetic analyses with thousandsof taxa and mixed models, ^Bioinformatics,vol.22,pp.2688-2690，2006.；Μ.N.Price, et al.，〃FastTree2〃Capproximately maximum-1ikelihood trees for largealignments, ^PLoS One, vol.5, p.e9490, 2010.)。这与系统发育树的快速重建及可视化的需求相去甚远，远不能满足在web交互的可忍受时间范围内去快速确定自测的样本序列在以目标mark (Barcode)为度量标准的大树上的位置并可视化。所以就需要提供一种针对大数据(兆以上的)的系统发育树重建方法，在web交互环境下，满足物种快速鉴定、系统发育树的自动增长等的需要。

发明内容
从上面的分析可以看出，随着数据量的积累，特别是DNA条形码技术的发展，数据量的不断攀升，以兆级以上单位序列进行系统发育树重建的要求越来越普遍，并且基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark (Barcode)为度量标准的大树上的位置并可视化的需求也越来越突出。本发明提供一种基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法。本发明的系统进化树的重建方法，其步骤包括:A、基础数据集组织:选定特定的序列标记片段(Mark)进行检索并筛选相关的序列数据并组织成.fasta格式文件，接下来执行步骤B、C ；B、基础系统发育树构建:对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件，接下来执行步骤D ；C、基础 BLAST (Basic Local Alignment Search Tool)库构建:对步骤 A 所述.fasta文件进行格式化并构建BLAST库，接下来执行步骤D ；
D、系统发育树重建:对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件，接下来执行步骤E ；E、系统发育树的可视化:对步骤D重构的系统发育树进行可视化。上述步骤A中基础数据集的组织是针对特定序列片段标记(Mark)的数据组织；其Mark可以是核酸序列片段，也可以是蛋白序列片段；在D中新输入的序列片段也是相对应的同种标记的序列。上述步骤B中基础系统发育树的构建方法为:(I)对步骤A所述的.fasta文件进行多重序列比对(Multiple sequence alignment)并生成.aln文件；(2)对所述的.aln文件进行系统发育树的构建(Phylogenetic tree construction)并生成.tree文件；(3)对所述的.tree文件进行格式转换(Format conversion)并生成XML格式文件。在第(2)步系统发育树的构建之前，如选用的步骤A所述生成的.fasta数据集中的序列长度差异较大，需要进行比对后文件的修剪(trim)。上述步骤C中基础BLAST库的构建是针对A所述的.fasta文件进行格式化并生成BLAST算法的库文件。上述步骤D中系统发育树的重建方法为:⑴由自测序列数据作为输入，由步骤C所述的BLAST库作为比对的标准库，进行BLAST同源相似性比对，得到比对报告；(2)对比对报告进行分析并提取物种学名(Scientifc name)相关信息；(3)生成自测序列数据代表的样本物种的插入节点数据；(4)检索步骤B中所述的.XML文件，确定插入位置并插入(3)中所述的节点数据，从而重建完成系统发育树文件。本发明中的自测序列数据是.fasta格式；自测序列数据代表的样本物种的插入节点数据是.XML格式；重建完成的系统发育树文件为XML格式。上述步骤E所述的系统发育树的可视化，是针对步骤D中所述系统发育树重建的XML进行可视化，并标注自测序列数据代表的样本物种在整棵大树中的位置信息。本发明的基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法，可以针对大数据(兆以上的)的单位序列进行系统发育树的重建，并基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark (Barcode)为度量标准的大树上的位置，能够在web交互环境下，满足物种快速鉴定、系统发育树的自动增长等的需要。

图1是实施例中系统进化树的重建方法的工作流程图；图2是实施例中针对陆地植物系统发育分析所需MatK基因(rbcL)进行系统发育树重建的处理流程图。
具体实施例方式
下面通过具体实施例，并配合附图，对本发明做进一步的说明。参见附图1，本实施例所述的系统进化树的重建方法的具体过程为:A、基础数据集组织:本实施例选定特定的序列标记为rbcL的核酸序列片段序列数据并组织成.fasta格式文件，接下来执行步骤B、C ;B、基础系统发育树构建:对步骤A所述.fasta文件进行基础系统发育树的构建生成.XML系统发育树文件，接下来执行步骤D ；C、基础BLAST库构建:对步骤A所述.fasta文件进行格式化构建BLAST库，接下来执行步骤D ；D、系统发育树重建:对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件，接下来执行步骤E ；E、系统发育树的可视化:对步骤D重构的系统发育树进行可视化。本实施例所述步骤A的具体过程为:首先，其初始数据检索通过调用NCBI (National Center for BiotechnologyInformation)的 API 得到，其检索词是:(rbcL[Gene Name]AND^Embryophyta" [Organism])AND〃ddbj embl genbank〃 [Filter],得到相关的数据集；随后，通过GSQCT (Zhen Meng, Jianhui Li, Yunchun Zhou, Wei Cao, XiaoXiao, Jing Zhao, Hui Dong and Shouzhou Zhang, 〃GSQCT:A solution to screening genesequences for phylogenetics analysis, ^20129th International Conference on FuzzySystems and Knowledge Discovery, vol.6，pp.2941-2945，2012.)的方法进行筛选，参数设置是:(1)目标序列？丨〈0.01(丨=队1 ，1^，5，￥，吣；并且(2)目标基因序列6个阅读框检测不含有“TAG”、“TAA”、“TGA”任一字符串；并且(3)blap的Identities>93% ;设定阀值evalue<l.0X 10 10 ；
最后，调整相应的基础数据集为fasta格式，其fasta格式的文件头如表I所示。本实施例所述步骤B的具体过程为:(I)对A所述的.fasta文件应用muscle3.8.31(Edgar, R.C.，“MUSCLE:a multiplesequence alignment method with reduced time and space complexity,，，BMC Bioinformatics, vol.5, pp.113, 2004.)进行多重序列比对(Multiple sequence alignment)并生成.aln文件，其.aln文件格式示例如表2所示；(2)对所述的.aln 文件应用 FastTree2 (Μ.N.Price, e tal.，〃FastTree2〃Capproximately maximum-1ikelihood trees for largealignments, ^PLoS One, vol.5, p.e9490, 2010.)进行系统发育树的构建(Phylogenetictree construction)并生成.tree文件，其.tree文件格式示例如表3所示；(3)通过调用 Archaeopteryx0.954beta (Μ.V.Han andC.M.Zmasek, "phy1XML:XML for evolutionary biology and comparativegenomics, "BMC Bioinformatics, vol.10, 0ct272009.)中的格式转换模块对所述的.tree文件进行格式转换(Format conversion)并生成XML格式文件，其XML文件格式示例如表4所示。本实施例在第(2)步选用的A所述生成的.fasta数据集中的序列长度差异不大，不再进行比对后文件的修剪(trim)；本实施例所述的步骤C的具体过程为:针对A所述的.fasta文件进行应用Megablast包中formatdb命令进行格式化并生成BLAST算法的库文件(Altschul，StephenF., Thomas L.Madden, Alejandro A.Schaffer, JinghuiZhang, Zheng Zhang, Webb Miller, and David J.Lipman (1997)，"Gapped BLAST andPS1-BLAST: a new generation of protein database searchprograms〃，Nucleic AcidsRes.25:3389-3402.)。本实施例所述步骤D的具体过程为:(I)以自测序列数据作为输入，以C所述的BLAST库作为比对的标准库，应用Megablast进行BLAST同源相似性比对；(2)对比对报告进行分析并提取物种学名(Scientific name)相关信息；(3)生成自测序列数据代表的样本物种的插入节点数据，其示例格式如表5所示；(4)检索步骤B中所述的.XML文件确定插入位置并插入(3)中所述的节点数据而重建完成系统发育树文件。本实施例中的自测序列是.fasta格式；自测序列数据代表的样本物种的插入节点数据是.XML格式；重建完成的系统发育树文件为XML格式。本实施例所述步骤E的具体过程为:应用Archaeopteryx0.954beta针对D中所述系统发育树重建的XML进行可视化并标注自测序列数据代表的样本物种在整棵大树中位置等信息。表1.fasta格式的文件头示例文件:.fasta
说明:其fasta文件名字的规定格式为:“々ACCESSION Scientific Name ”
示例:
>J0592631 Marsilea defiexa
atcgattgacctattacactcccgactatcaggtctcagaccatgatatcttggcagcgtttagaatgaccccgcaacccggagtaccagctgaggaagctgg
agctgcaglagclgcagaaicllctacagglacUggactaccglatggacggacggactlaccaglcllgaccgciacaaaggiagatgclacgalatcgaacccgttgccggagaggaaaaee 紐 tacattgcatotgtagcttacccettggatetatttg 浦 gagggttctgttaecaacatgttcac 攸atttggtttcaaggctctacgtgctcttcgactagaagatcttcgaatccctcctgcttattccaaaactttccttggaccccctcacggtatccaggttgaaagggataaactgaacaaatatggacgtcctttatiaggatgtaccatcaagccaaaactaggcttatctgctaaaaactaiggtagagcigtttacgaatgtctt>JQ594499 Zamia neuiOphyliidia
ggcagcgttccgagtaactcctcaacctggggtgcccgctgaggaagcgggggctgcagtagctgctgaatcttccactggtacatggaccactgtttggac
cgatgggcttaccagtcttgatcgttacaaggggcgatgctatgacatcgagcccgttcctggggaagagactcaatttattgcctatgtagcctaccctttaga
cctctttgaagaaggltctgttactaacatgttcacttccattgtaggtaatgtatttggattcaaagccctacgagctaiBcgcctagaagatttgcgaattcctcct
gcttattccaaaactttccaaggtccacctcatggtatccaagttgaaagagataagttaaacaaatatggccgtcccctattgggatgtaccattaaaccaaaat
tgggtttatctgccaaaaactatggtagagcagttlacgaagtcctt
>JQ592397 Limnocharis laforestii
Ggtgttggattccaagcaggtgtaaaagattacaaattaacttattatactcctgaatatcaaacaaaagatactgatatcttggcagcattccgagtaaccccgc
aacccggggttccacctgaggaagctggggccgcagtagccgccgaatcctcgaccggtacatggacaactgtgtggactgatggacttactagtctggat
c 讲 acaaaggacgatgctaccacatcgagcctgttattggagaggaaaatcaata 籠 tgftatgtagctetcctttggacctttttgaagaag
aacatgtttacttccattgtgggtaatgtatttggctttaaagctctacgagctctacgtttagaggatttgcgaattccttcttcttattccaaaactticcaaggccca
cctcacggtaUcaagttgaaagagataaattgaataaataeggacgtcceetattgggatgtaetattaaaccgaaattgggattatcegegaaaaaetaeggt
cgggcggtttatgaatgtct
t......(其它序列数据)表2..aln文件格式示例
权利要求
1.一种系统进化树的重建方法，其步骤包括: A、选定特定的序列标记片段进行检索，并筛选相关的序列数据组织成.fasta格式文件； B、对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件； C、对步骤A所述.fasta文件进行格式化并构建BLAST库； D、根据所述.XML系统发育树文件和所述BLAST库，对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件； E、对重建的系统发育树进行可视化。
2.按权利要求1所述的方法，其特征在于:所述序列标记片段是核酸序列片段或者蛋白序列片段。
3.按权利要求1所述的方法，其特征在于，步骤B所述基础系统发育树的构建方法为: (1)对步骤A所述.fasta文件进行多重序列比对并生成.aln文件； (2)对所述.aln文件进行系统发育树的构建并生成.tree文件； (3)对所述.tree文件进行格式转换并生成XML格式文件。
4.按权利要求3所述的方法，其特征在于:对于序列长度差异较大的.fasta数据集，在所述多重序列比对后进行文件的修剪。
5.按权利要求1所述的方法，其特征在于:步骤C所述构建BLAST库是对所述.fasta文件进行格式化并生成BLAST算法的库文件。
6.按权利要求1所述的方法，其特征在于，步骤D所述系统发育树的重建方法为: (1)以所述自测序列数据作为输入，以所述BLAST库作为比对的标准库，进行BLAST同源相似性比对，得到比对报告； (2)对比对报告进行分析并提取物种学名相关信息； (3)生成自测序列数据代表的样本物种的插入节点数据； (4)检索步骤B中所述的.XML文件，确定插入位置并插入所述节点数据，从而重建完成系统发育树文件。
7.按权利要求6所述的方法，其特征在于:所述自测序列数据是.fasta格式，所述样本物种的插入节点数据是.XML格式，重建完成的系统发育树文件为XML格式。
8.按权利要求6所述的方法，其特征在于:应用Megablast进行BLAST同源相似性比对。
9.按权利要求1所述的方法，其特征在于:在所述可视化时标注所述自测序列数据代表的样本物种在整棵大树中位置信息。
10.按权利要求1所述的方法，其特征在于:应用Archaeopteryx软件进行所述可视化。
全文摘要
本发明属于应用生物信息学技术领域，涉及一种系统进化树的重建方法。该方法首先选定特定的序列标记片段进行检索并筛选相关的序列数据并组织成.fasta格式文件作为基础数据集；随后对基础数据集进行基础系统发育树的构建并生成.XML系统发育树文件，同时构建基础BLAST库；然后综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件，然后可视化和标注自测序列数据代表的样本物种在整棵大树中的位置等信息。该方法是一种基于初始大树构建和同源相似性比对的快速算法相结合的方法，可以用于生物系统发育、生物条形码、生物物种鉴定等相关领域的大系统发育树重建和web应用。
文档编号G06F19/14GK103093118SQ20131004951
公开日2013年5月8日申请日期2013年2月7日优先权日2013年2月7日
发明者黎建辉, 孟珍, 周园春, 邵靖, 曹巍申请人:中国科学院计算机网络信息中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎建辉;孟珍;周园春;邵靖;曹巍
技术所有人：中国科学院计算机网络信息中心
我是此专利的发明人

上一篇：基于综合边界条件的电网规划方法
上一篇：基于特征空间分解的文本大数据主题挖掘方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。