一种批量计算基因组直系同源基因进化速率的方法_2

文档序号:9667646阅读:来源:国知局
护范围。
[0031 ] 下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
[0032] 下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0033] 实施例1、批量计算基因组直系同源基因进化速率的方法的建立
[0034] 本发明所提供的批量计算基因组直系同源基因进化速率的方法的流程图见图1, 具体包括如下步骤:
[0035] (1)采用基于Blast成对比对结果后进行聚类的InParanoid程序,鉴定待测 Specil和Speci2两基因组(A、B数据集)中的直系同源基因,在Linux系统下操作,采用 默认参数设置进行分析;按照如下步骤获取完整的直系同源基因对ID和分值信息文件(C 数据集);
[0036] 获取完整的直系同源基因对ID和分值信息文件步骤:打开InParanoid软件包 "inparanoid·pi" 文件所在文件夹,运行"perlinparanoid.plXXXIXXX2" 命令,其中, "XXXI"和"XXX2"分别代表A、B数据集的文件名(这两个文件都放置到InParanoid软件包 中存放"inparanoid,pi"文件的文件夹之内)。此步骤将得到"table.XXX1-XXX2.fasta" 文件。
[0037] 所述"table.XXX1-XXX2.fasta"文件中的数据为两物种之间的直系同源基因对信 息,记为C数据集。
[0038] (2)根据所获得的两物种直系同源基因对信息文件(C数据集)中的直系同源基因 的成对ID,采用Perl脚本"lalign_combine.pl",在Linux或Window系统下操作,按照如 下步骤从两物种基因组cds编码区序列文件(D和E数据集)中匹配ID筛选出成对cds序 列并调用系统MUSCLE程序(默认参数设置)进行多序列比对,处理批量结果文件,最后融 合形成一个具有特殊格式的"seqset"文件(F数据集)。
[0039] 获取PAML软件包yn00模型输入格式要求的"seqset"文件的步骤:建立工作目 录work_dir,并在该文件夹下建立两个子文件夹seqpair_cds和muscle_out,把所述脚本 "lalign_combine.pi"和"table.XXX1-XXX2.fasta",还有cds文件XXX3 和XXX4 放在工作 目录work_dir文件夹下,运行"perllalign_combine.plXXX3XXX4table.XXX1-XXX2. fasta"命令,得到"seqset"文件,记为F数据集。
[0040] 所述"XXX3"和"XXX4"分别代表D和E数据集的文件名。所述Seqpair_cdS文件 夹中放置的是从两物种基因组cds编码区序列文件(D和E数据集)中通过匹配ID批量筛 选出的所有成对cds序列。该序列文件有如下特点,每个文件包含两条成对的fasta格式 cds序列,且文件中的成对ID与"table.XXX1-XXX2.fasta"文件中的直系同源基因对ID相 同,此外文件名以两个成对ID中间加短下横线"英文输入法)命名。所述muscle_out 文件夹中放置的是seqpair_cds文件夹中所有cds序列文件经过MUSCLE程序比对后的结 果文件。
[0041 ]其中,所述脚本"lalign_combine.pi"中关于获得secjpair_cds和muscle_out两 个文件夹及下属文件的内容具有如下特点:根据"table.XXX1-XXX2.fasta"文件中提取出 的成对直系同源基因ID,分别到"XXX3"和"XXX4"两个文件中提取cds序列,以fasta文 件格式存储,文件名为两个ID号中间加一短下横线英文输入法)。将该文件放置于 secipair_cds文件夹下,然后调用MUSCLE软件,对secipair_cds文件夹下的子文件进行多序 列比对,并把结果置于muscle_out文件夹之中,子文件名与seqpair_cds文件夹中对应文 件名相同(成对ID号中间加短下横线"。
[0042]此外,所述脚本"lalign_combine.pi"关于获取"seqset"文件的部分是基于如 下原理进行编程的:对mUSCle_〇Ut文件夹中各子文件的序列进行处理:对于每一对序列, 首先分别去除结尾处多序列比对后留下的短横线其次去除序列结尾处的终止密码子 (TAA、TAG和TGA);然后摒弃中间部分存在终止密码子的序列对。对于保留下来的成对序 列,选取较短序列的长度值m作为此直系同源对序列的长度记录下来。最后按照ynOO软件 输入文件的格式要求把m、成对序列ID及成对序列对应写入"seqset"文件中,以备使用。
[0043]
[0044]
[0045]
[0046] (3)在Linux或Window系统下操作,利用PAML软件包中的ynOO模型进行计算,修 改模型配置文件"ynOO.ctl"中的ndata参数,将其设计为n(ndata=η),其它采用默认参 数,运行"ynOO"命令,得到"yn"文件。
[0047] 所述"yn"文件为ynOO模型计算后的结果文件,记为G数据集,所述η为步骤(2) 中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数(或本步骤"seqset"文件 中cds序列的对数)。
[0048] 其中,所述"seqset"文件(F数据集)在运行"ynOO"命令前,需移至PAML软件包 并与ynOO.ctl文件处于同一文件夹下。
[0049] (4)在Linux或Window系统下操作,运行"perl2abs_kaks.pi",得到文件 "result_kaks'
[0050] 所述"reSUlt_kaks"文件为对待测两物种基因组基因进化速率结果文件"yn"(G 数据集)进行整体和提取的文件,记为数据集Η。所述"yn"文件和Perl脚本"2abs_kaks. p1 "文件,在程序运行前皆已移至工作目录w〇rk_dir之中。
[0051] 其中,所述脚本"2abs_kaks.pi"具有如下特点:以"Userunmode"标志,对其后 两行的序列ID进行提取;以"seq.seq.SNtkappaomegadN+-SEdS+_SE"为标志对其 后一行的各项结果参数值进行提取,结果以ID1ID2seqseqSNtkappaomegadN+-SE dS+-SEdn/ds的列顺序分别写入所获结果文件"result_kaks"之中,记为数据集H。所述 Η数据集中的各行内容即为从所述待测两物种基因组中批量计算出的基因进化速率各相关 参数信息。
[0052] 2abs_kaks.pi(脚本 2)
[0053] ο:
[0055] 实施例2、利用实施例1建立的方法批量计算雷蒙德氏棉和亚洲棉基因组间基因 的进化速率
[0056] 进入中国农业科学院棉花研究所网站的棉花基因组计划链接(http://cgp. genomics.org.cn/)数据库分别下载雷蒙德氏棉(GossypiumraimondiiL.)的基因组序 列(13 条染色体,885Mb)和亚洲棉(GossypiumarboretumL.) (13 条染色体,1,746Mb),在 Windows系统或本地Linux运算服务器,进行雷蒙德氏棉和亚洲棉基因组间基因进化速率 的计算。计算过程中,所涉及的常用程序名称、运行环境及地址如表1所示。计算方法具体 操作步骤如下:
[0057] 1)参照实施例1的步骤(1)进行。
[0058] 采用InParanoid程序鉴定雷蒙德氏棉(A数据集)和亚洲棉(B数据集)基因组 之间的直系同源基因,Linux系统下操作,采用默认参数设置,共得到24924对最高分值的 直系同源基因对(C数据集)。
[0059] 2)参照实施例1的步骤⑵进行。
[0060] 利用所获雷蒙德氏棉(A数据集)和亚洲棉(B数据集)两基因组24924对直系同 源基因对文件(C数据集),在Linux或Window系统下,采用Perl脚本"lalign_combine. pl",从两棉花基因组cds编码区序列文件(D和E数据集)中匹配ID筛选出成对cds序列 23091对,并将该23091对序列皆放置于事先在work_dir文件夹下建立的secipair_cds文 件夹内,后Perl脚本会调用系统MUSCLE程序(默认参数设置)对该23091对序列分别进行 多序列比对,再将23091对比对结果序列放置于事先在work_dir文件夹下建立的muscle_ out文件夹内,最后脚本"lalign_combine.pi"还能处理muscle_out文件夹中的批量结果 文件,将其融合形成一个如图2所示具有特殊格式(序列不含终止密码子"TAA、TAG和TGA"; 序列结尾处没有MUS
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1