基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法与流程

文档序号:12963938阅读:841来源:国知局
基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法与流程

本发明涉及生物信息分析技术领域,尤其涉及一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法。



背景技术:

转录组是指某一物种、组织或细胞在特定状态下所转录的所有rna的集合,包括mrna和非编码rna。转录组是连接承担遗传物质的基因组与执行生物功能的蛋白质组的纽带,转录水平的调控是最为重要并且被广泛研究的调控方式,相比起基因组水平的研究,转录组研究能给出更高效更精确的研究信息。

虽然高通量测序技术相较于传统测序技术已有巨大进步,但是破译动植物基因组仍然面对巨大困难,且花费昂贵。转录组测序主要是针对转录产物mrna进行高通量测序获得转录本的信息,该技术通量高、覆盖广、精度高,可从整体水平研究基因功能以及基因结构,发现不同生理或者病理状态下细胞、组织或个体内差异表达的基因,能够对任意物种进行转录组分析。目前已广泛应用于生物学基础研究、临床诊断、分子育种和药物研发等多个领域。

生物学大数据分析是高通量测序技术应用于有参考基因组的转录组研究的最关键步骤。针对有参考基因组的转录组项目,推荐选择illuminahiseq测序平台,illuminahiseq运行一次产生的数据量高达1000g,个人计算机和工作站显然无法完成这些数据的处理工作。

高通量测序数据处理时要对有关数据进行调整、筛选、比对、注释,需要科研工作者具备高水平的脚本程序编写能力。现有有参考基因组的转录组项目生物信息学分析主要由三部分组成,分别为标准生物信息学分析、高级生物信息学分析、个性化生物信息学分析。标准生物信息学分析是整个有参考基因组的转录组项目的基础,其结果呈现方式包括样本信息统计、样本质控统计、比对结果统计、测序饱和度分析、冗余序列分析、覆盖度分析、染色体分布统计、新转录本详细信息图表、注释概览。高级生物信息分析呈现方式包括:基因表达分布信息、基因表达矩阵、基因表达venn图、基因表达相关性分析、基因表达pca分析、差异表达火山图、差异表达散点图、差异表达聚类分析、go富集分析、kegg富集分析。高级生物信息分析呈现方式包括:基因共表达网络分析、蛋白互作网络分析、可变剪接分析、snp分析、rna编辑分析、基因融合分析等。

现有技术的业务流程采用手动的方式,工作效率较低,因此无法满足高效产出的市场需求。



技术实现要素:

针对上述技术中存在的不足之处,本发明提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法,以解决个人计算机、工作站无法完成的大数据处理分析和现有手动方式的业务流程效率低的问题。

为实现上述目的,本发明采用的技术方案是:一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统,包括

项目管理模块,用于对项目的详细信息进行查看、编辑和管理,通过项目、应用、任务、文件等对所有进度的分析项目进行综合管理;

基础分析任务提交模块,用于对任务进行参数设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合分配至相应的项目文件;基础分析任务提交模块,包括数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析;

交互式结果分析模块,用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现,包括高级生物信息学分析和个性化生物信息学分析;

所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接。

具体地,交互式结果分析模块中高级生物信息学分析和个性化生物信息学分析,包括测序饱和度分析、冗余序列分析、基因覆盖度分析、覆盖区域分布分析、基因表达差异聚类分析、go富集分析、kegg富集分析、基因共表达网络分析、蛋白互作网络分析、可变剪接分析、snp分析、rna编辑分析、基因融合分析。

具体地,交互式结果分析模块还用于更改分组方案和挑选分析样品、选择聚类算法等。

具体地,所述交互式结果分析模块包括图表工具,实现更改配色方案、图形方案、柱形方向;可选择样本,并选择性显示图例、点名称、聚类树、环境因子,可修改图题;分析结果图支持png、jpeg、pdf、svg格式下载,并存入报告,在报告中展示;交互式结果分析模块的报告格式为html和pdf。

本发明还提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统,包括以下步骤:

步骤0,建立项目;

步骤1,向本地集群服务器上传测序数据,同时在本地集群服务器上传用户私有的参考基因组数据库或者选择使用平台中的公共数据库,用户可锁定该模块中的项目或将项目选择性共享至他人操作管理;

步骤2,建立任务;

步骤3,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析,运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息;若符合则进行指定参数运算分析,经运算分析后生成相应的项目文件。

步骤4,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告。

具体地,所述步骤3中在对测序数据进行参数设置和运算分析时,用户可自行设置数据质控统计标准,选择分析平台中的公共参考基因组数据库或用户私有的参考基因组,设定比对、组装、表达差异分析、可变剪接分析软件,选择待分析内容后,再运行已选全部分析。

具体地,所述项目管理模块,还可用于查看、编辑和管理由用户上传的相关文件或由分析产生的相关文件,并可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块用于查看任务运行的状态与日志信息;项目管理模块可用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块,也用于共享项目,并可管理成员权限。

具体地,参考基因组数据库存储在本地集群服务器内,使用平台中的参考基因组数据库包括动物基因组数据库、植物基因组数据库、真菌基因组数据库,也可上传自定义数据库。

具体地,所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于php+mysql+mongodb的服务器后台和html+css+jquery的前端页面。交互式分析模块,通过用户触发前端页面交互相接受任务执行命令,向服务器后台提交任务参数,并调动perl、c、python、r计算机语言的服务器端脚本对测序数据进行分析,再次通过服务器返回到前端页面展示。

具体地,所述基础分析任务提交模块在对所述测序数据进行运算分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行生物信息学分析。。

本发明的有益效果在于:本发明借助云计算技术,通过网络方便的获取生物学大数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于云计算平台的有参考基因组的转录组项目的交互式分析方法提供了高集成化的数据分析工作流,无需用户人工整合各类分析软件、搭建分析流程,实现了真正意义上的一站式生物信息分析。让没有计算机背景但有生信分析需求的生物学研究工作者在无需学习任何计算机语言的前提下,轻松实现生物学大数据的深度挖掘并获得理想的结果报告。此外,基于云计算平台的有参考基因组的转录组交互分析方法支持多种算法,自定义设置分组,灵活选择呈现可视化图表和交互式的报告。基于高性能云计算平台的有参考基因组的转录组交互式分析实现一键化数据共享,提高合作项目的综合管理水平。最后,基于云计算平台的有参考基因组的转录组项目的交互式分析内容全面,不仅涵盖有参考基因组的转录组分析的基础分析和高级分析,还包括部分个性化分析,满足用户对生信分析的更高需求。

附图说明

图1为本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析系统方框图;

图2为本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析方法流程图;

图3为本发明中基础分析任务提交模块的有参考基因组的转录组项目的示意图;

图4为本发明中有参考基因组的转录组项目的新建项目示意图;

图5为本发明中有参考基因组的转录组项目基础任务参数提交示意图。

图6为本发明中有参考基因组的转录组项目交互分析示意图;

图7为本发明中有参考基因组的转录组项目pca图表工具示意图

图8为本发明中有参考基因组的转录组项目分析报告示意图。

主要元件符号说明如下:

10、项目管理模块11、基础分析任务提交模块

12、交互式结果分析模块。

具体实施方式

为了更详尽地表述本发明,下面结合附图对本发明作进一步地阐述。

请参阅图1,本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析系统统,包括

项目管理模块10,用于对项目的详细信息进行查看、编辑和管理,通过项目、应用、任务、文件等对所有进度的分析项目进行综合管理;

基础分析任务提交模块11,用于对任务的基本参数进行设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合分配至相应的项目文件;

交互式结果分析模块12,用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现;

项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接;

首先,在项目管理模块中建立分析项目,向本地集群服务器上传测序数据,同时在本地集群服务器上传用户私有的参考基因组或者选择使用分析平台中的公共参考基因组数据库,用户可锁定该模块中的项目或将项目选择性共享至他人操作管理;测序数据为fastq格式的文件;用户私有参考基因组应包括参考基因组fasta格式文件和参考基因组gff格式结果注释文件;

然后,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析,经运算分析后生成相应的项目文件。运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息,若符合则进行指定参数的运算分析;

最后,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告;

请进一步参阅图2,本发明还提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析方法,包括以下步骤:

步骤s0,建立项目;

步骤s1,向本地集群服务器上传测序数据,同时在本地集群服务器上传用户私有的参考基因组数据库或者选择使用平台中的公共数据库,用户可锁定该模块中的项目或将项目选择性共享至他人操作管理;

步骤s2,建立任务;

步骤s3,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析。运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息;若符合则进行指定参数运算分析,经运算分析后生成相应的项目文件。

步骤s4,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告。

与现有分析技术相比,本发明提供的一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法,该发明主要包括项目管理模块10、基础分析任务提交模块11和交互式结果分析模块12三大模块,该系统及方法借助云计算技术,通过网络方便的获取生物学大数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于云计算平台的有参考基因组的转录组项目的交互式分析方法提供了高集成化的数据分析工作流,无需用户人工整合各类分析软件、搭建分析流程,实现了真正意义上的一站式生物信息分析。让没有计算机背景但有生信分析需求的生物学研究工作者在无需学习任何计算机语言的前提下,轻松实现生物学大数据的深度挖掘并获得理想的结果报告。此外,基于云计算平台的有参考基因组的转录组交互分析方法支持多种算法,自定义设置分组,灵活选择呈现可视化图表和交互式的报告。基于高性能云计算平台的有参考基因组的转录组交互式分析实现一键化数据共享,提高合作项目的综合管理水平。最后,基于云计算平台的有参考基因组的转录组项目的交互式分析内容全面,不仅涵盖有参考基因组的转录组分析的基础分析和高级分析,还包括部分个性化分析,满足用户对生信分析的更高需求。

在本实施例中,所述步骤s3中在对测序数据进行参数设置分析时,用户可自行设置数据质控统计标准,选择分析平台中的公共参考基因组数据库或用户私有的参考基因组,设定比对、组装、表达差异分析、可变剪接分析软件,确认蛋白调控数据库,勾选待分析内容后,再运行已选全部分析。

在本实施例中,所述项目管理模块10,还可用于查看、编辑和管理由用户上传的相关文件或由分析产生的相关文件,并可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块用于查看任务运行的状态与日志信息;项目管理模块可用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块,也用于共享项目,并可管理成员权限。

在本实施例中,所述参考基因组数据库存储在本地集群服务器内,使用平台中的参考基因组数据库包括动物基因组数据库、植物基因组数据库、真菌基因组数据库,也可上传自定义数据库。

请进一步参阅图3,基础分析任务提交模块可用于数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析等。

数据质控统计用于对所选fastq文件进行质量控制和统计,并设定测序数据质量简介的质量值和保留reads的最小长度;

基因功能注释用于提取参考基因组中的序列,比对nr,go(geneontology),cog(clusteroforthologousgroups),kegg(kyotoencyclopediaofgenesandgenomes)与swisspro等数据库,对注释进行综合评估;

选择参考基因组文件用于与指定参考基因组进行比对;

转录组质量评估反映测序结果深度、测序偏向性、冗余分布频率等;

新转录本预测得到一些没有注释信息的全新转录本;

表达量分析运用featurecount、htseq、kallisto等软件进行表达量统计,得到转录本的表达量;

差异表达分析反映所有基因在所有样本中的差异表达情况,在交互分析页面可进一步挑选不同的样本、设置不同聚类方法、选择不同距离算法进行差异分析;

基因结构分析包括可变剪接,snp、indel分析、rna编辑分析与基因融合分析。其中rna编辑分析与基因融合分析目前只支持对人类转录组进行分析。基础分析任务提交模块生成的结果可在交互式分析模块中可视化查看,也可在项目文件中查找到对应的结果文件。

在本实施例中,交互式结果分析模块用于高级生物信息学分析和个性化生物信息学分析,包括测序饱和度分析、冗余序列分析、基因覆盖度分析、覆盖区域分布分析、基因表达差异聚类分析、go富集分析、kegg富集分析、基因共表达网络分析、蛋白互作网络分析、可变剪接分析、snp分析、rna编辑分析、基因融合分析。

交互式结果分析模块还用于更改分组方案和挑选分析样品、选择聚类算法等。

交互式结果分析模块包括图表工具,可实现更改配色方案、图形方案、柱形方向;可选择样本,并选择性显示图例、点名称、聚类树、环境因子,可修改图题;交互式结果分析模块分析结果图支持png、jpeg、pdf、svg格式下载;交互式结果分析模块分析结果可存入报告,并在报告中展示;交互式结果分析模块的报告格式可为html和pdf。项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于php+mysql+mongodb的服务器后台和html+css+jquery的前端页面。

交互式分析模块,通过用户触发前端页面交互相接受任务执行命令,向服务器后台提交任务参数,并调动perl、c、python、r计算机语言的服务器端脚本对测序数据进行分析,再次通过服务器返回到前端页面展示。

基础分析任务提交模块在对所述测序数据进行运算分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行生物信息学分析。

请进一步参阅图4,为基于本发明创建项目和任务步骤,点击分析平台进入我的项目,点击新建项目,填写项目名称,项目描述,选择领域标签,物种标签。点击已建立的项目名称,新建任务。

请参阅图5,基础分析参数设置主要包括数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析的参数设置。

在此可选择输入fastq格式序列文件也可选择包含每个独立样本的fastq序列文件夹。与此同时,可设定剪切后的最小质量值和最小片段长度。同时,选择在本地集群服务器上传用户私有的参考基因组或者选择使用分析平台中的公共参考基因组数据库,已有参考基因组数据库囊括常见真核模式生物的数据库,用户也可选择私有的参考基因组数据库用于序列比对。

基因功能注释可设定nr、cog、kegg、swisspro数据库e-value阈值,用于评估功能注释的准确性。

比对参考基因组可选择使用序列比对软件tophat2或hisat2,从测序饱和度、冗余序列、覆盖度、区域分布等4个角度对转录组质量进行评估。

新转录本预测提供cufflinks和stringtie等2种主流拼接软件预测新转录本。

表达量分析运用featurecount、htseq、kallisto等差异分析软件进行表达量统计。

基因结构分析包括可变剪接,snp、indel分析、rna编辑分析与基因融合分析,可依据不同的可变剪接方案提供相应的分析软件。

交互式结果分析模块的分析参阅图6,主要包括测序数据质控,转录组质量评估,拼接及新转录本预测,功能注释概览,表达量分析,表达差异研究,network分析,基因结构分析,转录因子分析。

其中数测序据质控包括样本信息统计和样本质控统计两项内容。样本信息统计运用统计学的方法对所有测序reads的每个circle进行碱基分布和质量波动的统计,可以从宏观上直观地反映出样本的测序质量和文库构建质量,对每一个样本的原始测序数据进行测序相关质量评估,并可绘制原始测序数据的碱基质量分布图、碱基错误率分布图等。样本质控统计保证了后续生物信息分析的准确性,并提供质控后的样本数据量统计和质量评估。在碱基质量分布图上可使用图形右下角的放大工具对整张图片进行放大。点击存入报告按钮,可将该图片保存到报告相应位置。

转录组质量评估包括比对结果统计、测序饱和度分析、冗余序列分析、覆盖度分析、区域分布统计、染色体分布统计等六项分析。其中比对结果统计分为比对结果统计表。比对结果统计表用于统计各个样本的totalreads、totalbasepairs、totalmapped、multiplemapped、uniquelymapped、totalunmapped等信息。测序饱和度分析分为测序饱和度曲线和测序饱和度箱线图,点击图表工具可挑选样本、设定颜色方案及形状方案,确认生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。冗余序列分析分为冗余序列分布图,用于展示冗余序列分布情况,点击图表工具可挑选部分样本展示。覆盖度分析分为基因覆盖度分布图,是样本中所有基因的5’到3’区域上序列覆盖情况的综合呈现,点击图表工具可挑选样本、设定颜色方案。区域分布统计分为reads区域分布统计饼图和reads区域分布统计表。reads区域分布统计饼图展示reads在各区域分布比例,点击图表工具可选择样本、设置颜色方案。reads区域分布统计表,展示各个样本的reads在内含子、外显子、编码区、3’utr和5’utr区域的分布数目。染色体分布统计分为染色体分布统计柱状图,染色体分布统计弦图,染色体分布统计表。染色体分布统计柱状图统计比对到染色体上的序列数目,染色体分布统计弦图更直观的体现所测序列在各染色体上的分布,点击图表工具可选择样本、设置颜色方案。染色体分布统计表,以数据表统计比对到染色体上的序列数,点击下载可下载至本地保存。

拼接及新转录本预测包括拼接情况概览、新转录本预测。拼接情况概览分为转录本长度分布柱状图、转录本长度分布表。转录本长度分布柱状图反映个样本中所有转录本的长度分布区间,点击图表工具,可设定步长区间,选择颜色方案,绘制柱形图查看样本序列在各个长度区间范围中的转录本分布情况。新转录本预测分为预测新转录本类型分布图和新转录本注释信息明细。新转录本类型分布图可视化展示各类型的新转录本数目,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。新转录本注释信息可智能查找片段类型、片段起始位置、片段终止位置、拼接表达量分值等。

功能注释概览包括nr注释、go注释、cog注释、kegg注释、swiss-prot注释统计、注释查询。nr注释分为信息统计、e-value分布饼图、nr相似度分布饼图,参考基因组或拼接后的新转录本比对ncbi蛋白质序列库(nr)结果信息展示,结果同时注释ncbi的物种分类数据库。信息统计可切换数据并筛选分类学水平。e-value分布饼图,用于分析匹配结果的可靠性,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。go注释分为go注释概览和go层级统计表。go注释概览可选择性查看基因或转录本的go注释信息,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。cog注释分为cog分类统计表和cog分类统计柱状图。cog注释可对基因或转录本进行功能注释和归类,切换数据类型可展示不同的功能分类柱状图。kegg注释分为pathway信息表、pathway分布柱状图。pathway信息表展示pathway统计信息,并可点击查看任一pathway的通路图。pathway柱形图的图表工具可选择性展示基因数目前n的pathway,设定颜色方案。swiss-prot分为swiss-prot注释信息表,以数据表的形式展示参考基因组或转录本比对该数据库的结果信息。注释查询整合如上五个数据库的综合信息,并可对转录本长度、序列名、物种名、id号等信息进行检索查询,得到对应的数据信息表,该表格可下载至本地保存或存入项目文件。

表达量分析包括表达量统计、样本间基因表达分析两项内容。表达量统计分为基因表达分布、基因表达信息。基因表达分布基于fpkm结果绘制所有基因的表达量概率密度分布图,可供选择的fpkm计算软件有featurecounts、rsem、kallisto、htseq,运行后即可生成基因的fpkm分析图,点击图表工具选择样本、选择图形、修改主标题、调节配色方案等。样本基因表达信息展示单样本表达分析的具体信息如:基因id、基因的染色体定位、起止位点、序列数目、fpkm值、是否为新转录本等,并可依据表达量高低筛选相应结果。样本间基因表达差异分析分为相关性分析和pca分析。相关性分析基于基因表达矩阵绘制样本相关性系数热图,可挑选部分样本、选择聚类方法、距离算法、层次聚类方式,运行后即可生成相应图片,点击图表工具可选择样本、设置颜色方案、显示聚类树、修改主标题,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。pca分析与相关性分析操作相似,从而通过pca找出离群样品,判别相似度高的样品簇。

表达量差异研究包括差异统计、差异分析、差异基因go分析、差异基因kegg分析。

表达量差异分析基于基因表达表绘制表达量差异分析图,可选择的差异分析软件为deseq、edegr、degseq2,设置分组方案及对照,运行后即可生成表达量差异分析图表,切换组别可展示不同样本或不同样本组间的差异表达散点图或差异表达火山图、差异基因表达模式热图、差异基因venn图。其中差异基因表达模式热图可设置距离算法、聚类方法、设定表达模式选择方案,运行后生成相应的结果。差异基因go分析分为go分类统计、go富集分析。go分类统计利用go数据库,将基因或转录本按照它们参与的生物学过程、构成细胞的组分、实现的分子功能等进行分类,并针对两两分组的差异表达基因或转录本进行go注释的统计,以其中一个样本为对照,所得结果可绘制上下调基因或转录本go注释柱形图,点击图表工具可设置上下调基因或转录本及功能分类的展示颜色,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。go富集分析用于在基因或转录本功能水平阐明样本间的功能富集情况,选择两两组合方案、设置调控类型、显著性水平、多重检验校正方法后,点击运行生成go富集分析统计表,并绘制go富集分析柱状图、go富集分析气泡图、go有向无环图,其中图表工具可显示富集程度前n的基因或转录本、设置分类颜色方案,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。差异基因kegg分析分为kegg统计分析、kegg富集分析。kegg统计分析可获得kegg调控分析统计表,并在kegg通路中展现差异基因或转录本的表达模式分布。kegg富集分析使用kobas进行keggpathway富集分析,使用fisher精确检验进行计算,可选择两两组合方案、设置调控类型及多重检验校正方法,可攻选择的多重检验校正方法有:bh、by、q-value,点击运行,生成相应的kegg富集分析统计表、kegg富集分析柱状图、kegg富集分析气泡图,其中图表工具可显示富集程度前n的基因或转录本、设置分类颜色方案,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。

network分析包括共表达网络分析、蛋白互作网络分析。共表达网络分析可以揭示转录调控的机制,选定一组基因/转录本,通过分析在不同样品中基因/转录本间表达量的相关性系数,构建基因/转录本间的共表达网络,从而可以明确其中的相互作用关系。共表达网络分析可设定softpower阈值(从1到20)、修改表达模式相似度阈值,点击运行后即可生成对应的network表和network图,其中的图表工具可设置颜色方案,切换至不同的模块可展示各个模块的network明细图表,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。蛋白质互作网络分析,使用同源映射的原理来预测差异基因的蛋白质互作网络,并对网络的拓扑属性进行分析。差异基因互作网络图可选择两两组合方案、设置蛋白质间互作的可能性、logfc值、显著性水平,点击运行后即可生成差异蛋白互作网络图、网络中心系数分布图、网络节点度分布图,其中图表工具可设置颜色方案、边的长度、引力范围、x轴标题、y轴标题、主标题,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。

基因结构分析包括可变剪接分析、snp分析、rna编辑分析、基因融合分析。有些基因的一个mrna前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mrna剪接异构体,这一过程称为可变剪接。可变剪接分析可选择rmats或mats软件,生成差异可变剪接事件分类统计表及差异可变剪接时间表达量统计表。snp分析是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。snp统计可设定比对软件star、分析软件gatk,生成snp结果表、snp区域分布饼图、snp类型分布柱状图,并可对结果进行样本、染色体、突变类型、突变碱基、功能区域等筛选。rna编辑指转录后成熟的rna分析的修饰和加工,使得rna所携带的遗传信息发生改变的过程,rna编辑分析使用rddpred软件生成编辑位点详情图表。基因融合分析使用soapfuse,对转录组测序数据中的基因融合事件进行分析,可设置支持融合的reads数目最小值,运行后生成基因融合位点显示图及基因融合分布表,点击图表工具可选择不同样本的基因融合位点显示图,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。

转录因子分析可用于找到与特定dna序列相结合的蛋白质,并对该蛋白特征进行描述,从而为基因表达调控机制的研究提供合理的基本预测。转录因子分析中选择参考数据库,可供选择的转录因子数据库有:planttfdb、itak、animaltfdb,运行后即可生成转录因子比对结果表及比对结果统计图。比对结果统计图可视化展示比对上的转录因子百分比饼图,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。

本发明的分析报告参阅图7-8,在交互式分析页面,点击存入报告按钮,即可将分析结果图或表存入静态报告的相应位置,且同一分析可存入多张不同维度的分析结果图。静态报告中,可查看分析选用的软件及算法以及该分析的生物学意义,静态报告支持在线预览、编辑、打印或下载至本地保存。

本发明所述的一种基于云计算平台的有参考基因组的转录组项目的交互式分析将输出的分析结果文件按照预设格式整合分配至相应的项目文件。输出的分析结果可下载,供后续深入分析使用。此外,传统的数据存储途径收到硬件质量及寿命的限制,而云端存储数据永不丢失,安全性更高。

本发明所述的一种基于云计算平台的有参考基因组的转录组项目的交互式分析方法,用户可自由设置所需参数、选择测序数据、设定分组、筛选样本,利用所述配置文件对所述测序数据进行基础生信分析,并以图表和静态报告的形式呈现,因而相较于传统的手动分析模式,本发明的自动分析模式,不仅节约了学习成本,更提高了有参考基因组的转录组项目的分析效率。本发明实施例中,交互式分析包括高级生信分析和个性化生信分析,高级生信分析和个性化生信分析是在基础生信分析的基础上更有针对性的、更深层、更多维度的挖掘数据信息,使得有参考基因组的转录组分析方式不再局限于传统业务线流程的单一性,提高了有参考基因组的转录组分析的效率和数据利用率,基于一个基本生信分析数据可做无限次高级生信分析和个性化生信分析,大幅缩减科研周期并降低科研成本。

本实施例中,基于云计算平台的有参考基因组的转录组项目的交互式分析方法具有简洁友好的交互式分析界面,高度集成业内经典的质控软件seqprep、sickle,数据比对软件tophat2、hisat2等分析软件并搭建成完整的工作流,分析生成的图表或结果文件符合专业期刊发表要求。在工作流界面,按照步骤一到步骤八的顺序,选择用于分析的fastq序列文件,选定质控标准、参考基因组数据库及比对软件,上传分组信息表,设置分析参数,点击保存并运行,即可实现有参考基因组的转录组项目的基础生信分析。在交互分析页面,用户可以自由执行重置距离算法、修改聚类方法、挑选样本、更改分组、改变配色、改写图题等操作,多角度、全方位、深层次解析数据价值,为用户节约了沟通环节的宝贵时间的同时,避免了对分析需求的认知偏差,项目周期大幅缩短。

以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1