本发明涉及生物信息分析技术领域,尤其涉及无参转录组分析系统及方法,特别涉及无参转录组自动化分析方法。
背景技术:
随着第二代测序技术的迅猛发展,其高通量、快速、低成本的特点成为越来越多的生物学研究者在解决生物学问题时的首选,尤其在转录组测序方面更显示出极大的潜力。转录组(transcriptome)即特定生物体在某种状态下所有基因转录产物的总和,也是连接基因组遗传信息与生物功能(蛋白质组)的必然纽带。
转录组研究是功能基因组研究的一项重要内容。相对于真核生物全基因组测序来说,转录组测序得到的序列不含有内含子及其它非编码序列,因此转录组测序有着无可比拟的高性价比优势。研究基因组结构的复杂性及遗传语言的根本规律,需要对测序所得的海量数据进行精准且全面的揭示和分析。
目前转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。转录组研究是基因功能及结构研究的基础和出发点,已经被广泛应用于医学、农学等各个领域。
目前现存的转录组分析方式存在以下缺陷:每项分析内容可选软件很多,不同生物信息分析人员使用的软件不统一,分析人员的技术水平也有高有低,给出的分析结果存在差异,导致后期项目交接困难,高级分析难以开展,容易导致分析项目的错漏。同时,各项分析需要单独运行,不能自动分配计算节点,也不能自动衔接后续分析,增加了分析等待时间,影响测序数据的处理效率。
发明创造内容
本发明的目的在于针对现有技术所存在的缺陷而提供一种无参转录组自动化分析方法,该无参转录组自动化分析方法基于Perl语言的自动化分析流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
为了实现上述目的,本发明所采用的技术方案如下:
一种无参转录组自动化分析方法,包括如下步骤:
1)输入要进行分析的项目信息步骤
将项目开题单号、物种类型、email、KAAS注释参考物种、样品过滤数据、样品分组以及需要分析的项目以一行表示一个信息进行输入;
2)开始标准分析步骤
根据步骤1)所设定的需要分析的项目,进行后续分析,该步骤默认的标准流程包括转录本拼接、Unigene聚类、Unigene功能注释、表达定量、表达差异富集分析以及结构分析;
3)查看程序输出和运行日志步骤
在分析进行过程中,如果程序出现问题,会将错误信息保存到对应的分析项目的目录下,同时分析流程使用的命令也会写入日志文件;通过检查日志文件和错误信息,保证分析结果的正确性。
本发明的有益效果在于:
基于Perl语言和PBS集群管理软件的自动化分析流程,可进行批量项目分析,自动衔接分析项目,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
附图说明
图1为本发明的无参考转录组自动化流程的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的无参考转录组测序数据处理方法的步骤流程图。
在具体实施方式中,该方法如图1所示包括以下步骤:
(1)输入的需要分析的项目的信息文件;
(2)检测信息的是否满足条件(格式是否正确),;
(3)格式正确后,会生成对应的分析项目列表,按照项目分析的前后顺序进行分析;
(4)查找项目需要的数据,判断是否存在,如果存在,进行分析,如果不存在,写入日志,该项目不分析;
(5)按照程序设定的目录结构,输出结果文件。
在实际应用中,本发明的方法所利用的工具包共包含1个Perl编写主程序代码和47个Perl、R或shell编写的子程序代码。主程序名为:RNASeq_Denovo_Main.pl。
流程所使用的每个子程序脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
程序基于的Perl、R和shell语言,可以在Linux、MacOS等多种类unix系统平台下使用,能够在任意安装上述系统的服务器上进行使用。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。