一种批量计算基因组直系同源基因进化速率的方法

文档序号:9667646阅读:1411来源:国知局
一种批量计算基因组直系同源基因进化速率的方法【
技术领域
】[0001]本发明属于生物
技术领域
,涉及一种批量计算基因组直系同源基因进化速率的方法。【
背景技术
】[0002]近年来,测序技术的蓬勃发展极大的促进了基因组学领域的研究工作。许多模式生物如酵母菌、小鼠、人、拟南芥和水稻等全基因组测序的完成,使物种基因组遗传组分分析的重要性日益突出,进而使分子进化学成为计算生物学和生物信息学等新兴学科的重要组成部分,跻身生命科学中最引人注目的领域之一。进化速率的计算方法是该学科研究的基础工具之一,对该学科的发展起了极大的推动作用。目前计算基因组的进化速率最常用的方法是PAML软件包中的ynOO程序。然而,该程序利用最大似然法对DNA或蛋白质序列进行系统发育分析时,程序背景知识涉及相当复杂的现代统计学理论和计算方法,对非专业研究者来说是一种巨大挑战;此外,要保证ynOO程序的运行,需要把下载的基因组文件进行诸多前处理,最后转化为具有固定格式的输入文件(如图2),这不仅增加了该模型的使用耗时,还加大了批量计算基因组直系同源基因进化速率的难度,极大的限制了非生物信息专业以及计算机基础相对薄弱人群对该软件的使用,最终制约了他们在分子进化领域的研究。[0003]本专利目的在于降低科研人员使用ynOO模型时的难度,致力于打造基因组数据下载后,计算机实现自动化、批量化处理,直接获取计算结果的一站式流程。【
发明内容】[0004]本发明的目的是提供一种批量计算基因组直系同源基因进化速率的方法。[0005]本发明所提供的批量计算基因组直系同源基因进化速率的方法,具体可包括如下步骤:[0006](1)将待测两物种(Specil和Speci2)基因组蛋白序列fasta格式文件分别记为A和B数据集(文件"XXXI"和"XXX2"),利用Linux系统中的InParanoid软件,运行"perlinparanoid.plXXXIXXX2"命令,得到"table.XXX1-XXX2.fasta"文件。[0007]所述"table.XXX1-XXX2.fasta"文件中的数据为Specil和Speci2两物种之间的直系同源基因对,记为C数据集;所述"XXXI和XXX2"分别代表A和B数据集的文件名,该文件要在运行InParanoid程序前置于包含"inparanoid,pi"脚本的文件夹内。[0008](2)建立工作文件夹work_dir,将待测Specil和Speci2两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集(文件"XXX3"和"XXX4"),运行"perllalign_combine.plXXX3XXX4table.XXX1-XXX2.fasta"命令,在seqpair_cds和muscle_out两个文件夹中分别得到小于或等于"table.XXX1-XXX2.fasta"文件中直系同源对数目的文件个数η(且每个文件中包含两条直系同源对的cds序列);在当前工作文件夹work_dir下得到"seqset"文件。[0009]所述"seqset"文件为满足ynOO软件输入格式的文件,记为数据集F;所述"XXX3和XXX4"分别代表D和E数据集的文件名,该文件在运行"perllalign_c〇mbine.pi"程序时已置于包含"1&1丨8]1_〇01]113;[11641"脚本的当前工作文件夹肌^1^_(1;[1'内。而文件夹seqpair_cds和muscle_out则为当前工作文件夹work_dir的子文件夹。[0010](3)切换至PAML软件包中含有"ynOO.ctl"文件的文件夹,修改"ynOO.ctl"文件中的ndata参数,使得"ndata=η",运行"ynOO"命令,得到"yn"文件。[0011]所述"yn"文件为yn〇〇模型计算后的输出文件,记为数据集G;所述η,为步骤(2)中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数(或本步骤"seqset"文件中cds序列的对数),且在运行"ynOO"命令时,"seqset"文件已移动至PAML软件包,并与ynOO.ctl文件处于同一个文件夹下。[0012](4)运行"perl2abs_kaks.pi",得到文件"result_kaks"。[0013]所述"result_kaks"文件记为数据集H,该数据集中的序列即为从待测Specil(A数据集)和Speci2(B数据集)两物种基因组序列中批量计算出的基因组基因进化速率相关各参数值;在本步骤程序运行前,脚本"2abs_kaks.pi"和"yn"文件分别置于文件夹work_dir之中。在上述方法步骤(2)中,所述脚本"lalign_combine.pl"中关于获得seqpair_cds和muscle_out两个文件夹及下属文件的内容,是基于如下原理进行编程的:根据"table.XXX1-XXX2.fasta"文件中提取出的成对直系同源基因ID,分别到"XXX3"和"XXX4"两个文件中提取cds序列,以fasta文件格式存储,文件名为两个ID号中间加一短下横线英文输入法)。将该文件放置于seqpair_CdS文件夹下,然后调用MUSCLE软件,对seqpair_cds文件夹下的子文件进行多序列比对,并把结果置于muscle_out文件夹之中,子文件名与seqpair_cds文件夹中对应文件名相同(成对ID号中间加短下横线"_")。[0014]此外,所述脚本"lalign_combine.pi"关于获取"seqset"文件的部分是基于如下原理进行编程的:对mUSCle_〇Ut文件夹中各子文件的序列进行处理:对于每一对序列,首先分别去除结尾处多序列比对后留下的短横线其次去除序列结尾处的终止密码子(TAA、TAG和TGA);然后摒弃中间部分存在终止密码子的序列对。对于保留下来的成对序列,选取较短序列的长度值m作为此直系同源对序列的长度记录下来。最后按照ynOO软件输入文件的格式要求把m、成对序列ID及成对序列对应写入"seqset"文件中,以备使用。[0015]在上述方法步骤⑷中,所述脚本"2abs_kaks.pi"具有如下特点:以"Userunmode"标志,对其后两行的序列ID进行提取;以"seq.seq.SNtkappaomegadN+-SEdS+-SE"为标志对其后一行的各项结果参数值进行提取,作为相应ID对应的结果存储到文件"result_kaks"中,此文件即为本流程的最终结果。[0016]进一步地,本发明中所述脚本"lalign_combine.pi"具体为:[0017][0018][0019][0020]进一步地,本发明中所述脚本"2abs_kaks.pi"具体为:[0021][0022][0023]在本发明中,步骤(1)中的所述待测两物种Specil和Speci2为任意可能存在直系同源基因对的近缘物种。[0024]在所述方法中,所述待测基因组蛋白和cds编码区序列可以通过下载已公开的全基因组序列获得或通过全基因组测序得到。[0025]具体地,本发明所述两待测基因组具体为雷蒙德氏棉(GossypiumraimondiiL.)和亚洲棉(GossypiumarboretumL.)的基因组。所述雷蒙德氏棉和亚洲棉基因组都记录于中国农业科学院棉花研究所网站的棉花基因组计划链接(http://cgp.genomics,org.cn/)数据库。[0026]本发明具有以下优点:一是找出直系同源基因对较精确,计算出的基因组基因进化速率各参数较为全面和准确,效果好,速度快;二是比较系统,效率高,易实现流程化、批量化、自动化;三是本发明将高效又常用的几个与计算基因组直系同源基因进化速率相关的软件以及Perl脚本语言编程完美流畅的结合起来,实现了软件之间的良好衔接,在很大程度上弥补了求解进化速率过程中出现的耗时费力、流程化批量化欠缺等不足。本方法在批量计算基因组直系同源基因进化速率过程中可以发挥重要的作用。【附图说明】[0027]图1为本发明批量计算基因组直系同源基因进化速率方法的流程图。[0028]图2为实施例2中步骤2)中Perl脚本"lalign_combine.pi"分析后所获"seqset"文件格式的图示。[0029]图3为实施例2中步骤3)中yn00软件运行之后获得的"yn"文件格式的图示。【具体实施方式】[0030]下面将通过实施例更详细地说明本发明,而这些实施例并不试图限制本发明的保当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1