基于计算云平台的真核无参转录组交互分析系统及其方法与流程

文档序号：16684550发布日期：2019-01-19 00:49阅读：316来源：国知局

本发明涉及生物信息分析技术领域，尤其涉及一种基于计算云平台的真核无参转录组交互分析系统及其方法。

背景技术：

转录组又称转录物组或表达谱，指特定物种、组织或细胞类型在某一时期内表达的所有rna的总和，包括编码蛋白质的mrna和各种非编码的rna(rrna、trna、snorna、snrna、microrna等)。转录组包含了时间和空间的限定，它是基因组与外部物理特征的动态联系，转录组反映的是特定条件下活跃表达的基因，是研究细胞表型和功能的一个重要手段。转录组学是从rna水平研究基因表达变化的学科，对于尚不能得到全基因组序列的物种而言，进行转录组测序，已成为沟通表型和基因型的重要桥梁。

转录组的研究可以提供特定条件下基因的表达信息，从而推断未知基因的功能，揭示特定调节基因的作用机制，还可以确定不同种类的细胞和组织的基因在何时何地被激活或进入休眠，对转录本的定量可以了解特定基因的活性和表达量，用于疾病的诊断和治疗。

相对于真核生物全基因组而言，转录组序列不含有内含子及其它非编码序列，能给出更高效的有用信息。转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。而无参考基因组的真核生物转录组测序无需设计探针，不但能检测已知基因还能够发现新的转录本，在测序覆盖率足够大时还能检测到低丰度转录本。

生物信息学数据分析是高通量测序应用于转录组研究的最关键步骤。illuminahiseq运行一次产生的数据量高达1000g，个人计算机和工作站显然无法完成这些数据的处理工作。

高通量数据处理时要对数据进行调整、筛选、比对，需要生物信息学工作者掌握脚本程序编写能力。现有真核无参转录组生物信息分析主要由三部分组成:标准生物信息学分析、高级生物信息学分析、个性化生物信息学分析。标准生物信息学分析是整个转录组分析的基础，其结果呈现包括数据产出统计、数据质控、转录组拼接、拼接转录本/unigene长度统计、序列分析和表达量分析。其中序列分析包括orf预测、基因功能注释，snp分析和ssr分析。而基因功能注释是将拼接出来的序列比对nr、pfam、swissprot、string、kegg、go、cog等数据库，获得转录本/unigene的注释信息。表达量分析包括重复样本间相关性分析、基因表达差异分析、差异基因go/kegg富集分析、差异基因表达模式聚类分析、差异基因venn分析和显著性富集go有向无环图分析。高级生物信息学分析呈现方式包括：基因共表达网络构建、ipath整合分析、蛋白互作网络分析、转录因子分析等。个性化生物信息学分析包括：模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建系统发育树、近缘物种直系同源分析、divergent同源基因go/kegg分析、conserved同源基因go/kegg分析、go分类水平的选择压力分析、树假设检验分析等。

现有技术的业务流程采用手动的方式，工作效率较低，因此无法满足市场的需求。

技术实现要素：

为解决上述问题，本发明提供一种基于计算云平台的真核无参转录组交互分析系统及其方法，以解决个人计算机和工作站无法完成数据处理和现有手动业务流程效率低的问题。

为实现上述目的，本发明提供一种基于计算云平台的真核无参转录组交互分析系统，包括项目管理模块，用于对项目信息进行查看和管理；

基础分析任务提交模块，用于设置基础参数运行任务，并将结果以及原始数据按照预设格式整合封装成相应的项目文件，基础参数运行任务包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析；

交互式结果分析模块，用于根据用户请求生成分析结果，并将结果可视化展示，包括高级生物信息学分析和个性化生物信息学分析；

所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接；

首先，向本地集群服务器上传测序数据，在项目管理模块中建立项目，在该项目管理模块中可以进行文件锁定或者共享给他人操作；

然后，在基础分析任务提交模块中，用户可以通过可视化界面对测序数据进行参数设置并进行一键化分析，分析之后产生项目文件；分析之前，先进行判定数据质控是否合格，若合格则进行参数分析；若不合格则直接返回报错；

最后，产生的项目文件传送至交互式结果分析模块中进行交互式分析，根据用户需求对项目文件进行二次分析和统计，得到直观呈现的报告。

为实现上述目的，本发明提供一种基于计算云平台的真核无参转录组交互分析方法，包括以下步骤：

步骤1，创建项目；

步骤2，向本地集群服务器上传测序数据，在项目管理模块中建立项目，在该项目管理模块中可以进行文件锁定或者共享给他人操作；

步骤3，建立任务；

步骤4，在基础分析任务提交模块中，用户可以通过可视化界面对测序数据进行参数设置并进行一键化分析，分析之后产生项目文件；分析之前，先进行判定数据质控是否合格，若合格则进行参数分析；若不合格则直接返回报错；参数分析包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析；

步骤5，产生的项目文件传送至交互式结果分析模块中进行交互式分析，根据用户需求对项目文件进行二次分析和统计，得到直观呈现的报告，包括高级生物信息学分析和个性化生物信息学分析。

具体地，所述项目管理模块，还可用于查看和管理上传的相关文件或由分析产生的相关文件，可对相关文件进行上传、查找、复制、移动、删除和下载操作；项目管理模块还用于标记项目状态进度，项目状态进度可为未开始、进行中、已完成、已终止和问题；项目管理模块还用于查看任务运行的状态与日志信息；且项目管理模块，还用于共享项目，并管理成员权限。

具体地，所述交互式结果分析模块包括图表工具，可实现更改颜色方案、形状方案、柱形方向；可实现显示图例、点名称以及合并或排序功能；交互式结果分析模块分析结果可存入报告，在报告中展示；交互式结果分析模块分析结果图可以png、jpeg、pdf、svg格式下载；交互式结果分析模块的报告格式可为html和pdf。

具体地，所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于html+css+jquery的前端页面和php+alpha的服务器后台，交互分析模块接收到任务执行命令后调动perl、c、python、r等计算机语言的服务器端脚本对测序数据进行基本分析。

具体地，所述基础分析任务提交模块在对所述测序数据进行分析的不同阶段，从其存储的分析软件中选取相应的分析软件对所述测序数据进行分析。

本发明的有益效果在于：本发明提供的基于计算云平台的真核无参转录组交互分析系统及其方法，主要包括项目管理模块、基础分析任务提交模块和交互式结果分析模块三大模块，该系统及方法借助云计算技术，通过网络方便的获取大量测序数据分析所需要的基础计算资源，满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时，基于计算云平台的真核无参转录组交互分析方法提供了高集成化的数据分析平台，无需用户自己整合各类分析软件，搭建分析流程，真正意义上实现了一键化生物信息分析。此外，基于计算云平台的真核无参转录组分析可比对多个数据库，支持多种算法，呈现可视化的结果和交互式的报告。最后，基于计算云平台的真核无参转录组分析内容全面，不仅涵盖真核无参转录组分析的标准分析和高级分析，还包括部分个性化分析，更好满足用户需求。

附图说明

图1为本发明的基于计算云平台的真核无参转录组交互分析系统方框图；

图2为本发明的基于计算云平台的真核无参转录组交互分析方法流程图；

图3为本发明中基础分析任务提交模块的真核无参转录组分析的示意图；

图4为本发明中真核无参转录组分析新建项目示意图；

图5为本发明中真核无参转录组分析基础任务参数提交示意图；

图6为本发明中真核无参转录组交互分析示意图；

图7为本发明中真核无参转录组样本间表达量评估pca图表工具示意图；

主要元件符号说明如下：

10、项目管理模块11、基础分析任务提交模块

12、交互式结果分析模块。

具体实施方式

为了更清楚地表述本发明，下面结合附图对本发明作进一步地描述。

请参阅图1，本发明的基于计算云平台的真核无参转录组交互分析系统，包括：

项目管理模块10，用于对项目信息进行查看和管理；

基础分析任务提交模块11，用于设置基础参数运行任务，并将结果以及原始数据按照预设格式整合封装成相应的项目文件；

交互式结果分析模块12，用于根据用户请求生成分析结果，并将结果可视化展示，包括高级生物信息学分析和个性化生物信息学分析；

项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接；

进一步的，项目管理模块还与交互式结果分析模块相连。

具体的，项目管理模块10中，

所述项目的详细信息可包括下列中的一项或多项：项目名称、项目描述、领域标签、物种标签、文件、项目目录、任务目录、文件目录、任务运行状态等项目相关信息。

项目名称、项目描述、领域标签、物种标签可由用户创设。

文件可以为基础分析任务提交模块、交互式结果分析模块产生的分析结果文件、项目文件。也可以进一步包括用户上传的文件。

项目目录、任务目录、文件目录可由项目管理模块生成。

所述项目信息管理可包括下列中的一项或多项：项目创建；项目共享；项目分类存储；标记项目状态进度；文件上传、查找、下载、锁定、复制、移动、重命名、删除等。

具体的，可以利用客户端界面，通过网络通讯与项目管理模块通讯连接，从而实现文件的上传、查找、浏览、下载、锁定、复制、移动、重命名、删除，进行创建项目与项目共享的设定。

项目管理模块可通过项目、任务、应用和文件对所有状态的分析项目进行综合管理，即项目管理模块可对项目信息进行查看和管理。

基础分析任务模块11至少可用于设置基础分析任务的参数，调取数据分析工具运行基础分析任务进而基于原始数据获得基础分析任务分析结果，将基础分析任务分析结果与原始数据整合生成项目文件。

所述原始数据存储于集群服务器或云端服务器中。原始数据可来源于用户上传的数据。本发明中，原始数据指测序数据。测序数据是基于二代测序产生的碱基序列文件。测序数据可以是fastq格式的数据。数据分析工具基于参数设置在集群服务器中调取对应的原始数据运行基础分析任务。

本发明中，基础分析任务提交模块预设基础分析任务。基础分析任务提交模块利用客户端设置基础分析任务的参数。数据分析工具存储在集群服务器或云端服务器中，通过解析所设参数获得任务指令，基于任务指令可触发对应分析工具的运行。

所述预设的基础分析任务可包括：测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析。

测序质量优劣的重要判断指标是测序的数据产量。测序数据质控包括测序的数据量统计以及质量控制后的数据量统计。

转录组拼接是将所获得的rna-seq高质量测序读段(reads)从头组装生成重叠群和单一序列。

基因功能注释是将组装序列比对各个数据库的结果进行综合统计。

表达量分析则是进行表达量统计，再根据计算得到的基因表达量，进行两两样本间或分组间的基因差异表达分析，再对差异基因进行研究。

基因结构分析可选自单核苷酸多态性分析(snp分析)、简单重复序列分析(ssr分析)和开放阅读框预测(orf预测)。

基础分析任务提交模块生成的结果可在交互式分析模块中可视化查看，也可在项目文件中查找到对应的结果文件。

所述测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析均可基于现有转录组分析理论与算法，针对待分析原始数据作出。

现有技术中，可用于执行转录组相关分析任务的分析工具均可用于本发明，例如seqprep、sickle、fastp、fastx_clipper可用于测序数据质控；trinity可用于转录组拼接；diamond、hmmer、blast2go、transdecoder可用于基因功能注释；featurecount、rsem、kallisto、salmon、deseq2、degseq、edger可用于表达量分析；gatk、samtools、misa、rddpred、soapfuse可用于基因结构分析等。

所述基础分析任务的参数可以是选自：测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析任务相关的参数。例如，待分析的数据库、剪切后的最小质量值、剪切后的最小片段长度、测序类型、最短contig长度、reads方向、kmer长度、kmer最小计数值、样本分组文件，对照组方案，表达量指标和显著性水平、是否设置ssr引物、是否比对pfam数据库等现有分析工具中的常规可设置参数。用户可以基于拟分析任务选择合适的参数自行进行设置。

具体的，可以在后台运行时解析参数，根据参数值字段按照是否与软件名称匹配对应到相应软件命令。

基础分析任务提交模块中的结果是指：基于原始数据、设置的基础分析任务参数，运行与预设的基础分析任务相匹配的数据分析工具获得的基础分析任务分析结果。一般可为文本文件或二进制文件。基础分析任务分析结果可存储于云端，并记录在web端数据库中，可通过网络访问。用户可在项目管理的项目文件页面查阅。

具体的，所述基础分析任务提交模块中的结果可以对应选自：测序数据质控结果、转录组拼接结果、基因功能注释结果、表达量分析结果和基因结构分析结果。测序数据质控结果可选自：原始数据统计表、质控数据统计表、碱基质量分布图、碱基错误率分布图、碱基含量分布图；基因功能注释结果可选自：功能注释概况统计表、注释统计柱状图、注释统计venn图、物种分类统计表、物种分类统计饼图、物种分类统计柱状图、nre-value分布饼图和nr相似度分布饼图、go注释概况统计表、go二三四层级统计表和go分类统计图、cog分类统计表和cog分类统计柱状图、pathway分布柱状图、pathway分类统计表、pathway信息统计表、pathway通路图和pathway分类统计柱状图)，功能注释查询结果(如功能注释详情表)；转录组拼接结果可选自：序列组装结果(如组装结果统计表、序列长度分布表、序列长度分布图)，质控序列与组装比对结果(如比对结果统计表)；表达量分析结果可选自：表达量分析结果表、表达量折线图、表达量分布图和表达量统计表、样本间相关性热图、样本间相关性系数表、pca图、主成分解释度表、表达量差异详情表、差异基因统计表、差异基因统计图(如表达量差异散点图、表达量差异火山图)、差异基因筛选结果表、差异基因表达量热图、热图heatmap、差异基因heatmap分析表、子聚类heatmap分析表、基因子聚类趋势图、差异基因venn统计数据表、差异基因venn图、差异基因go注释柱形图和go分析分类统计表、go富集统计表、go富集分析柱状图、显著性富集go有向无环图和go富集分析气泡图、kegg统计分析表和差异基因kegg通路图、kegg富集分析柱状图和kegg富集分析散点图、kegg富集分析气泡图；基因结构分析结果可选自：ssr分析结果(如选自ssr统计表、ssr分析结果详情表、ssr类型统计柱饼图)、snp分析结果(如snp分析结果详情表、snp注释结果表、snp在基因的不同区域分布饼图、snp类型统计表、snp类型统计柱状图、snp频率统计表、snp频率统计柱状图、snp深度统计表、snp深度统计柱状图、snp类型分布图、snp位点统计表、snp位点统计饼图、snp位点统计柱状图)、orf预测结果(cds长度分布图、cds长度统计表、cds序列查询)。

在本发明优选的实施方式中，所述项目文件中还包括中间过程文件数据。中间过程文件数据的部分或全部可以与基础分析任务分析结果共同位于结果文件中，或者，中间过程文件数据的部分或全部作为独立的文件存在于项目文件中。

中间过程文件数据是基于原始数据在运行基础分析任务时获得。例如可以将质控结果fastq文件等作为中间过程文件数据。

项目文件中包括的中间过程文件数据可以根据用户需求预先选择设置。

交互式结果分析模块12根据用户请求生成分析结果，并将结果可视化展示。交互式结果分析模块12至少可用于：

1)从基础分析任务提交模块形成的项目文件中获取分析结果数据，并以分析结果数据作为输入数据，根据用户请求进行交互分析获得交互分析文本。

2)将基础分析任务提交模块形成的分析结果文本或交互分析文本根据用户请求可视化展示。

进一步的，1)中，将交互分析任务预设于交互式结果分析模块中以供用户选择。交互式结果分析模块预设的交互分析任务至少包括以下一种或多种：基因共表达网络分析、ipath整合分析、蛋白互作网络分析、转录因子分析。

可利用现有技术中的相关分析工具实现上述功能，例如wgcna可用于基因共表达网络分析；ipath可用于ipath整合分析；stringr可用于蛋白互作网络分析；blast、hmmscan可用于转录因子分析。现有分析工具中的常规可设置参数均可作为交互式结果分析模块中的可设置分析参数。用户可以基于拟分析任务选择合适的参数自行进行设置。

基因共表达网络分析可以表达量分析结果数据为出发数据，利用分析工具wgcna获得分析结果，其分析结果可以为共表达网络图。

ipath整合分析可以功能注释结果数据为出发数据，利用分析工具ipath获得分析结果，其分析结果可以为ipath代谢通路图。

蛋白互作网络分析可以功能注释结果或转录组拼接结果为出发数据，利用分析工具stringr获得分析结果，其分析结果可选自蛋白互作网络图等。

转录因子分析可以功能注释结果或转录组拼接结果数据为出发数据，利用分析工具blast、hmmscan获得分析结果，其分析结果可选自转录因子预测结果表、转录因子家族统计柱状图、转录因子家族统计圈图等。

交互式结果分析模块利用客户端设置分析参数，选择分析任务。与分析任务匹配的数据分析工具存储在集群服务器或云端服务器中，基于任务指令可触发数据分析工具的运行。

交互式结果分析模块产生的交互分析结果文件可以在项目管理模块的文件目录中的任务文件夹中查看和操作。

项目文件中的原始数据可备交互式结果分析模块增设其他功能模块之需。

2)中的用户请求具体可以是基础分析任务提交模块形成的分析结果文本可视化展示请求或交互分析文本可视化展示请求。

分析结果文本可以报告的形式展示。分析结果图可以png、jpeg、pdf、svg格式下载；交互式结果分析模块的报告格式可为html和pdf。

交互式结果分析模块可设置测序数据质控、转录组拼接、基因功能注释，以分别展示基础分析任务提交模块获得的测序数据质控、转录组拼接、基因功能注释分析结果。进一步的，基因共表达网络分析、ipath整合分析、蛋白互作网络分析、转录因子分析，亦可在交互式结果分析模块中展示对应的基因共表达网络分析、ipath整合分析、蛋白互作网络分析、转录因子分析结果。

在优选的实施方式中，交互式结果分析模块还可包括图表工具。图表工具用于图表展示、表格数据筛选和图形调整功能，具体的可用于实现更改颜色方案、形状方案、柱形方向；可选择地显示图例、点名称；实现合并或排序功能。

在优选的实施方式中，交互式结果分析模块还可用于：

3)根据用户请求，对基础分析任务提交模块形成的分析结果数据进行再计算获得调整的分析结果数据。

进一步的，3)中，所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据，基于用户在交互式结果分析模块设置的参数及分析任务请求，对已有的分析结果再计算，从而获得经调整的分析结果数据。

所述调整的分析结果数据可进一步作为供选择的输入数据，用于其他交互分析或者再一次的再计算。

为实现上述功能，交互式结果分析模块预设的交互分析任务至少包括基础分析任务中的一项或多项。具体的，至少包括表达量分析和/或基因结构分析。为实现本功能，交互式结果分析模块可供用户设置的参数至少还包括表达量分析和/或基因结构分析的常规设置参数中的一项或多项。

基于该设计，在基础分析任务结果不符合用户要求、出现不合理结果、或基于其他原因需要调整分析结果时，用户可自行方便地基于交互式结果分析模块实现分析结果的快速调整。且由于该数据调整是基于中间过程文件数据作出，而不是从原始数据出发作出，因此速度相对更快，相比现有的完全从原始数据出发的重新计算大大节省了处理时间。

在本发明一种实施方式中：

对于交互式结果分析模块中的表达量分析任务：可将质控结果fastq文件作为输入数据，将质控后的fastq文件基于新设的参数，利用rsem或featurecountmapping到转录本的序列上，获得新的表达量分析结果。或者，也可将表达量分析结果count文件作为输入数据，根据表达量分析产生的每一个基因rawcount值，基于新设参数，利用deseq2、degseq或edger进行差异表达分析，再根据预先设定好的cutoff阈值，进行差异表达结果统计获得新的差异表达分析结果。

对于交互式结果分析模块中的基因结构分析：可将质控结果比对到转录本序列得到的bam作为输入数据，基于新设参数，利用gatk或samtools进行snp分析；可将基因注释模块得到的pfam数据库注释结果作为输入数据，基于新设参数，进行orf预测分析；可将转录组组装模块得到的unigenefasta文件作为输入数据，基于新设参数，进行ssr分析，从而获得新的基因结构分析结果。

交互式结果分析模块同样可以根据用户请求可视化展示表达量分析和基因结构分析再计算分析结果。

本发明中，项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均可基于html+css+jquery的前端页面和php+web服务器后台，交互分析模块接收到任务执行命令后可调动相应分析软件或perl、c、python、r等计算机语言的服务器端脚本对测序数据进行分析。

本发明中，基础分析任务只按初始设置的参数进行分析并产生文件和结果数据，交互分析中相关分析会直接调用基础分析任务模块中产生的结果进行展示，作为结果记录中的原始分析记录，部分交互分析提供重新设置参数再计算的功能，并产生新的分析记录。

本发明的基于云计算平台的真核无参转录组交互式分析系统可进行以下操作：

首先，向集群服务器上传测序数据，在项目管理模块中建立项目，在该项目管理模块中可以进行文件锁定或者将项目共享给他人操作；

最后，产生的项目文件传送至交互式结果分析模块中进行交互式分析，根据用户需求对项目文件进行二次分析和统计，得到直观呈现的报告。

请进一步参阅图2，本发明还提供一种基于计算云平台的真核无参转录组交互分析方法，包括以下步骤：

步骤1，创建项目；

步骤2，向集群服务器上传测序数据，在项目管理模块中建立项目，并且在该项目管理模块中可以进行文件锁定或者将项目共享给他人操作；

步骤3，建立任务；

步骤4，在基础分析任务提交模块中，用户可以通过可视化界面对测序数据进行参数分析(即进行参数设置并运行基础参数运行任务)，分析之后产生项目文件；分析之前，先进行判定数据质控是否合格，若合格则进行参数分析；若不合格则直接返回报错。其中，参数分析包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析；

步骤5，产生的项目文件传送至交互式结果分析模块中进行交互式分析，根据用户需求对项目文件进行二次分析和统计，得到直观呈现的报告。

在本实施例中，项目管理模块，还可用于查看和管理上传的相关文件或由分析产生的相关文件，可对相关文件进行上传、查找、复制、移动、删除和下载操作；项目管理模块还用于标记项目状态进度，项目状态进度可为未开始、进行中、已完成、已终止和问题；项目管理模块还用于查看任务运行的状态与日志信息；且项目管理模块，还用于共享项目，并管理成员权限。

进一步的，步骤5还包括将基础分析任务提交模块形成的分析结果文本或交互式结果分析模块形成的交互分析文本根据用户请求可视化展示。

步骤5中，所述二次分析和统计包括从步骤4形成的项目文件中获取分析结果数据，并以分析结果数据作为输入数据，根据用户请求进行交互分析获得交互分析文本。所述交互分析选自以下一种或多种：基因共表达网络分析、ipath整合分析、蛋白互作网络分析、转录因子分析。

在本发明一优选的实施方式中，步骤5所述二次分析和统计还包括根据用户请求，对步骤4形成的分析结果数据进行再计算获得调整的分析结果数据。进一步的，所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据，基于用户在交互式结果分析模块设置的参数及分析任务请求，对已有的分析结果再计算，从而获得经调整的分析结果数据。此时，所述交互分析至少还包括步骤4运算分析项目中的一项或多项。在一具体实施方式中，所述交互分析还包括表达量分析和/或基因结构分析，所述表达量分析和/或基因结构分析以基础分析任务提交模块的分析结果数据或中间数据作为输入数据，经再计算获得调整的分析结果。

请进一步参阅图4，为基于本发明创建项目和任务步骤，点击分析平台进入我的项目，点击新建项目，填写项目名称，项目描述，选择领域标签，物种标签。点击已建立的项目名称，新建任务。

请进一步参阅图3，基础分析任务提交模块可用于测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析。

请参阅图5，参数的设置主要包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析参数设置。在此可选择输入fastq格式的序列文件夹。

测序数据质控对所选fastq文件中的每一个样本的原始测序数据进行测序相关质量评估，包括a/t/g/c碱基含量分布统计，碱基质量分布统计和碱基错误率分布统计。然后对原始测序数据进行质控过滤，可以设置测序类型、最小质量值、最小长度等参数去除测序接头序列、低质量读段、不确定碱基信息率较高的序列及长度过短序列，对质控后的数据再次进行统计，同样包括a/t/g/c碱基含量分布统计，碱基质量分布统计和碱基错误率分布统计。

转录组拼接需要将所有测序读段通过从头组装生成重叠群(contig)和单一序列(singleton)，此项分析是后续处理及生物学功能分析的基础。需要设置的参数有最短contig长度、reads方向、kmer长度及kmer最小计数值，组装拼接的可视化展示包括组装结果统计表、序列长度分布、样本与组装结果比对表。

基因功能注释将组装序列比对nr、pfam、swissprot、string、kegg、go、cog等数据库，并将比对结果进行分别统计和综合统计及自定义筛选。

表达量分析先进行表达量统计，再根据计算得到的基因表达量进行两两样本间或分组间的基因差异表达分析，最后再运用不同的分析方法对差异基因进行多方面的研究。可设置的参数有样本分组文件，对照组方案，表达量指标和显著性水平。可选择差异基因研究的各项分析，包括聚类分析，kegg富集分析，go富集分析，kegg统计分析，go统计分析等。

基因结构分析包括snp分析、ssr分析和orf预测，需选择是否设置ssr引物和是否比对pfam数据库。

基础分析任务提交模块生成的结果可在交互式分析模块中可视化查看，也可在项目文件中查看对应结果文件。

请进一步参阅图6，在一种具体实施方式中，交互式结果分析模块的分析主要包括测序数据质控、转录组拼接、表达量及差异基因分析以及基因结构分析等。

其中测序数据质控包括原始数据统计和质控数据统计两个模块。测序数据质控结果来自基础分析任务提交模块，可在交互式结果分析模块进行可视化展示。

原始数据统计表统计了每个样本测序得到的全部原始reads、总碱基数、测序错误率、测序错误率≤1％的碱基数目比例、测序错误率≤0.1％的碱基数目比例、g/c碱基数量和占总监级数量的百分比，并可通过碱基质量分布图、碱基错误率分布图和碱基分布图来查看相关信息。该表格可在交互页面直接进行下载也可在项目文件中进行查看和下操作。在图表工具中可选择颜色，更改主标题、x轴标题、y轴标题。在分布图上可以通过选中实现图形部分区域的放大，也可使用图形右下角的拖拽放大工具对整个图形进行放大。点击存入报告按钮，可将该图片存到报告的相应位置。质控数据统计则统计了原始测序数据质量控制后的上述各项信息。

转录组拼接至少包括序列组装和与组装结果比对两个模块。转录组拼接结果来自基础分析任务提交模块，可在交互式结果分析模块进行可视化展示。

其中序列组装结果显示可分为组装结果统计表、序列长度分布表和序列长度分布图。序列长度分布表和图可切换步长显示，可根据用户需求显示一定步长范围内的序列数目，也可将大于某步长的序列进行求和展示。与组装结果比对则生成比对结果统计表。

表达量及差异基因分析包括功能注释、表达量分析和基因共表达网络分析。其中所述表达量分析除常规表达量分析任务外还进一步包括差异基因研究。

功能注释结果来自基础分析任务提交模块，可在交互式结果分析模块进行可视化展示。在一种实施方式中，功能注释包括功能注释概览和功能注释查询两个模块，而功能注释概览又包括总览和nr、pfam、swissplot、string、go、cog、kegg比对结果信息展示。总览主要是对结果进行综合统计和自定义筛选，包括注释概况统计表，注释统计柱状图和注释统计venn图。注释统计柱状图可查看基因或转录本的注释情况，注释统计venn图可点击图上的数字显示关联元素，也可输入元素进行查找。通过与nr库的比对，可以查看本物种转录本序列与相近物种的相似情况，以及同源序列的功能信息。与nr数据库进行比对后，统计比对上的物种类别，e-value分布及序列相似度分布情况，从物种、e-value和序列相似度分布三方面体现注释结果的可信度。结果展示为物种分类统计表、物种分类统计饼图、物种分类统计柱状图、nre-value分布饼图和nr相似度分布饼图。其中物种分类统计表可根据物种分类水平进行筛选。pfam数据库是一个蛋白质家族大集合，可对组装出来的转录本进行蛋白家族的注释。利用swiss-prot蛋白质组序列比对结果，对基因进行go分类。go数据库对基因和蛋白功能进行统一的限定和描述，利用go数据库可以对于一个或一组基因按照其参与的生物过程、分子功能及细胞组分三个方面进行分类注释，在这三个大分支下面又有很多小层级(level)，level级别数字越大，功能越细致。基因或蛋白质可以通过id对应或者序列注释的方法找到与之对应的go编号，而go编号可用于功能类别或者细胞定位。go比对信息可展示为go注释概况统计表、go二三四层级统计表和go分类统计图。其中go二三四层级统计表可根据序列类型(基因、转录本)和go层级水平进行筛选。而go分类统计图则可按丰度由高到低筛选物种展示。string数据库可用于预测蛋白质的相互作用，通过比对string数据库可以得到蛋白编码基因的cog分类信息，对结果进行cog注释，对所有转录本进行功能归类。cog比对的结果展示为cog分类统计表和cog分类统计柱状图，可根据不同的序列类型(基因、转录本)进行查看。kegg数据库是系统分析基因功能、联系基因组信息和功能信息的大型知识库。与kegg数据库比对，获得转录本对应的ko编号，根据ko编号可以获得某转录本可能参与的具体生物学通路。kegg比对的结果展示为pathway分布柱状图、pathway分类统计表、pathway信息统计表、pathway通路图和pathway分类统计柱状图，可根据序列类型(基因、转录本)进行查看，也可筛选转录组或基因数目排名靠前的pathway显示。功能注释查询可根据转录本长度、序列名、物种、cogid、goid、koid和ko名进行，结果展示为功能注释信息表，包含各个数据库的比对注释结果。

表达量分析一方面可以对来自基础分析任务提交模块的表达量分析结果可视化展示，另一方面，也可以对表达量分析结果进行再计算。在本发明的一个实施方式中，表达量分析包括表达量统计、样本间相关性分析和pca分析，表达量统计展示的结果有单样本表达量分布表、表达量分布图和表达量统计表，其中表达量统计表可根据基因表达量矩阵、转录本表达量矩阵、基因计数矩阵和转录本计数矩阵查找转录本并可查看注释详细信息。样本间相关性分析的结果展示包括相关性系数矩阵聚类树、相关性系数矩阵热图和样本间相关性系数表。pca分析结果展示包括pca图、主成分解释度表和pca分析相关数据。请参阅图7，pca分析图的图表工具可自由选择x轴和y轴显示的主成分，也可根据是否选择z轴来决定是呈现平面图形还是三维图形，还可通过颜色方案决定图上点的颜色，通过形状方案来决定图上点的形状，可以选择是否显示点名称，是否显示主标题，也可自定义主标题，x、y或z轴标题名称。

交互式结果分析模块中的表达量分析还可进一步包括差异基因研究。除了对基础分析任务提交模块的差异基因研究结果可视化展示外，还可对差异研究结果进行再计算。在本发明的一个实施例中，差异研究结果包括差异基因统计、差异基因分析、差异基因go注释富集分析、差异基因kegg注释富集分析。其中差异基因统计的结果展现为差异基因统计表和差异基因统计图(散点图和火山图)。此分析可选择显著性水平、分组方案、对照组方案进行计算。差异基因分析包括差异基因筛选、表达模式聚类和venn分析，其中差异基因筛选可根据基因表达差异统计表选择两两组合和合成方式(并集筛选、交集筛选)进行计算，产生的结果为差异基因筛选结果表，可根据该表查找基因，查看注释详细信息。表达模式聚类可根据差异基因表达量表，选择聚类方法(hclust、kmeans)，距离算法(manhattan、eculidean)，log底数值(10、2)，子聚类数目，基因选择方案进行运算，结果以差异基因表达量热图、差异基因heatmap分析表和子聚类heatmap分析表、基因子聚类趋势图展示。venn分析可根据差异基因表达量表，选择或新建分组方案进行运算，结果以差异基因venn统计数据表和差异基因venn图表示。差异基因go注释富集分析包括go分类统计和go富集分析，go分类统计可根据基因表达差异统计表选择两两组合进行运算，结果呈现为差异基因go注释柱形图和go分析分类统计表。go富集分析可根据基因表达差异统计表，选择两两组合调控类型(上调、下调)，显著性水平、多重检验校正方法(bh、fdr)进行运算，结果呈现为go富集统计表、go富集分析柱状图、显著性go有向无环图和go富集分析气泡图。差异基因kegg注释富集分析包括kegg统计分析和kegg富集分析，其中kegg统计分析可根据基因表达差异统计表，选择两两组合进行运算，结果展示为kegg统计分析表和差异基因kegg通路图。kegg富集分析可根据基因表达差异统计表，选择两两组合，选择调控类型(上调、下调)和多重检验校正方法(by、bh、none、qvalue)进行运算，结果分为kegg富集分析柱状图和kegg富集分析散点图。

基因共表达网络分析可根据差异基因表达量表，设置β软阈值和module相似阈值进行运算，结果展示为差异基因网络表、网络图、差异基因module表、单module网络图、softpower分布图和module树图。

基因结构分析包括ssr分析、snp分析、orf分析等三个模块。基因结构分析一方面可以对来自基础分析任务提交模块的基因结构分析结果可视化展示，另一方面，也可以对基因结构分析结果进行再计算。其中ssr分析可根据基因序列、转录本文件以及是否设计引物进行运算，结果包括ssr统计表、ssr类型统计表、ssr类型统计柱状图和ssr引物统计表。snp分析的结果展现形式有snp类型统计表、snp类型分布图、snp位置统计表、snp位置统计饼图以及snp结果统计表，其中snp统计表可根据样本或snp类型进行筛选(a/t、a/c、a/g、c/t、c/g)。orf预测结果展现为orf预测结果表、orf序列长度分布表、序列长度分布图和orf蛋白结构域注释表。

交互式结果分析模块可以对在基础分析任务提交模块已经做出的分析结果进行再计算，如前述表达量分析及基因结构分析，以获得调整的分析结果。例如交互式结果分析模块中的表达量分析可通过更改分组方案和对照组方案、挑选分析样品等，重新进行差异表达计算，获得新的差异表达分析结果。

在本实施例中，交互式结果分析模块还可用于高级生物信息学分析和个性化生物信息学分析。

高级生物信息学分析和个性化生物信息学分析是以基础分析任务提交模块的分析结果数据作为输入数据，根据用户请求进行进一步的分析获得分析结果并将结果可视化展示。高级生物信息学分析和个性化生物信息学分析可以选自：基因共表达网络分析、ipath整合分析、蛋白互作网络分析、转录因子分析。其中，基因共表达网络分析、ipath整合分析、蛋白互作网络分析和转录因子分析，可将基础分析任务提交模块的分析结果数据作为输入数据，配置合适的分析工具运行获得分析结果并进行可视化展示。基于用户需要，高级生物信息学分析和个性化生物信息学分析还可以进一步包括：模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建系统发育树、近缘物种直系同源分析、divergent同源基因go/kegg分析、conserved同源基因go/kegg分析、go分类水平的选择压力分析、树假设检验分析等中的一种或多种其他分析。高级生物信息学分析和个性化生物信息学分析中的分析模块可根据需要归于特定的分析模块中，例如将基因共表达网络分析设于前述表达量及差异基因分析之下；或者，也可将高级生物信息学分析和个性化生物信息学分析中的分析模块另设新的分析模块。高级生物信息学分析和个性化生物信息学分析中各分析模块的位置设置并不影响其功能的实现。

交互式结果分析模块包括图表工具。

图表工具可实现更改颜色方案、形状方案、柱形方向；可显示图例、点名称、合并或排序功能。

交互式结果分析模块分析结果可存入报告，在报告中展示；交互式结果分析模块分析结果图可以png、jpeg、pdf、svg格式下载；交互式结果分析模块的报告格式可为html和pdf。

交互式分析模块，通过用户触发前端页面交互相接受任务执行命令，向服务器后台提交任务参数，并调动python、perl、c、r等计算机语言的服务器端脚本对测序数据进行分析，再次通过服务器返回到前端页面展示。

在交互分析页面点击存入报告按钮，即可将分析所得结果存入报告相应位置。在报告中可查看使用软件(即分析工具)及方法，以及生物学意义上的解释。在进一步优选的方案中，在交互分析的右上角还有问题与解答，进一步解答可能遇到的参数设置或生物学意义类问题。

本实施例中，项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于html+css+jquery的前端页面和php+web的服务器后台，交互分析模块接收到任务执行命令后调动perl、c、python、r等计算机语言的服务器端脚本对测序数据进行基本分析。基础分析任务提交模块在对测序数据进行分析的不同阶段，从其存储的分析软件中选取相应的分析软件对测序数据进行分析。

本发明的一种基于计算云平台的真核无参转录组交互分析方法，交互分析所产生的结果文件按照预设格式整合封装成相应的项目文件。产生的结果文件可下载，供进一步的分析。

本发明的一种基于计算云平台的真核无参转录组交互分析方法，用户可以自由选择测序数据，自定义所需参数，利用所述配置文件对所述测序数据进行基本分析，并以图表和报告的形式呈现，因而相较于采用手动方式进行分析的现有技术，本发明采用自动的方式进行分析，能够提高真核无参转录组分析的效率。

本发明实施例中，还包括高级生信分析和个性化生信分析，高级生信分析和个性化生信分析可以在标准分析(即基础分析任务提交模块所做分析)的基础上做进一步分析，提高标准分析所得数据的利用效率，有针对的、更深层的挖掘数据信息，使得真核无参转录组分析方式不再局限于传统业务线流程的单一性，提高了真核无参转录组分析的效率和数据利用率，一个基本数据可做无限次高级分析和个性化分析，节省了时间和实验成本。

本实施例中，基于计算云平台的真核无参转录组交互分析方法利用业内普遍认可的trinity组装软件对测序数据进行无参转录组拼接，生成的图表符合专业期刊的要求。在工作流程界面，按照步骤一到步骤五的顺序，选择感兴趣的fastq格式的文件，选择测序类型，设定分析参数，点击保存并运行，即可实现真核无参转录组项目的交互分析。在交互分析页面中，用户可以自由执行挑选样本、更改分组、改变配色等操作，不必和分析员反复沟通等待，大大缩短了项目周期。

相较于现有技术的情况，本发明提供的基于计算云平台的真核无参转录组交互分析系统及其方法，该发明主要包括项目管理模块10、基础分析任务提交模块11和交互式结果分析模块12三大模块，该系统及方法借助云计算技术，通过网络方便的获取大量测序数据分析所需要的基础计算资源，满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时，基于计算云平台的真核无参转录组交互分析方法提供了高集成化的数据分析平台，无需用户自己整合各类分析软件，搭建分析流程，真正意义上实现了一键化生物信息分析。此外，基于计算云平台的真核无参转录组分析可比对多个数据库，支持多种算法，呈现可视化的结果和交互式的报告。最后，基于计算云平台的真核无参转录组分析内容全面，不仅涵盖真核无参转录组分析的基础分析，还包括高级分析和个性化分析，更好满足用户需求。

以上实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘彬旭;余果;郭权;任一;史彩萍;曾静;石今;周玄
技术所有人：上海桑格信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。