一种整合多组学知识库的交互式生物信息云分析平台的制作方法

文档序号:18165571发布日期:2019-07-13 09:35阅读:503来源:国知局
一种整合多组学知识库的交互式生物信息云分析平台的制作方法

本发明涉及生物信息分析技术领域,尤其涉及一种整合多组学知识库的交互式生物信息云分析平台。



背景技术:

随着测序技术的飞速发展,利用新一代测序技术进行基因测序能够大大降低测序成本和时间。因此,高通量测序技术在各个行业得到了广泛的应用,例如,应用于医疗、环境、农业、医药、健康等领域。目前,基因检测涵盖了dna水平、rna水平、蛋白水平、微生物水平和表观水平等多条业务线。

然而,基因测序所生成的原始数据并不能反映任何有价值的信息,必须通过专业人员进行分析和解读,如何从海量测序数据中挖掘出有价值的核心信息,才是目前科研人员面临的关键问题。因此,大部分科研人员都是将研究样本和研究目的提供给生物信息分析公司,将基因检测和数据分析进行外包。项目分析结束后,生物信息分析公司将分析结果以word或pdf文档和大量的原始数据进行交付。考虑到用户对分析结果不满意或想修改时,无法对静态的word或pdf文档进行修改。目前,很多公司开发了生物云平台,由用户来上传原始数据等,来进一步满足用户需求。

中国发明专利cn104331640a公开了基于生物云平台的项目结题报告分析系统和方法,报告系统包括结题报告解析报告模块、用户界面模块、结题报告呈现模块和综合分析模块。cn105550536a公布了一种基于生物云平台的外显子测序数据分析方法及系统,对外显子测序数据进行个性化分析。cn107368700a公开了一种基于计算机云平台的微生物多样性交互分析系统及方法,该系统包括了项目管理模块、基础分析任务提交模块和交互式结果分析模块,实现了针对微生物多样性的一键化生物信息分析,呈现出可视化结果和交互式报告。

现在公司的业务种类繁多,涵盖dna水平、rna水平、微生物水平、表观水平及蛋白水平等多种业务。需要开发出一种整合多组学知识库且能够涵盖公司所有业务线的生物信息云分析平台,来实现一站式个性化生物信息分析,同时也能为客户提供交互式的动态结题报告。

申请内容

为了解决上述技术问题,本发明提供了一种整合多组学知识库的交互式生物信息云分析平台,对于一些没有生物信息经验或经验不足的用户来说,当在操作过程中有任何知识欠缺时,可以便捷地进入能够提供丰富多组学知识的集课堂、论坛、分析于一体的知识共享平台,方便学习专业知识和解决相关操作问题。

为了达到本发明目的,本发明提供了一种整合多组学知识库的交互式生物信息云分析平台,所述交互式生物信息云分析平台包括:生物信息知识共享平台和生物信息在线分析交互平台;

生物信息知识共享平台包括:云平台模块、在线课堂模块和论坛模块;

云平台模块,用于提供生物信息分析所需的作图软件;

在线课堂模块,用于提供各项组学技术的课堂和工具软件的实操教程;

论坛模块,用于提供在线经验交流的服务。

可选地,生物信息在线分析交互平台包括:项目模块、任务模块和分析平台模块。

可选地,项目模块包括:项目数据列表单元和项目搜索框单元;

项目数据列表单元,用于展示用户所要分析的所有的项目信息;

项目搜索框单元,用于对流程名称的关键字进行项目信息的查询。

可选地,任务模块包括任务数据列表单元和任务搜索框单元;

任务数据列表单元,用于记录用户所进行过的所有的任务信息;

任务搜索框单元,用于对任务名称的关键字进行任务信息的查询。

可选地,分析平台模块包括:微生物多样性分析平台单元、转录组分析平台单元和遗传图谱分析平台单元。

可选地,微生物多样性分析平台单元包括:第一流程分析子单元和第一结果交互分析子单元;

第一结果交互分析子单元包括:分组方案组件、otu筛选组件、物种分类分析组件、alpha多样性分析组件、beta多样性分析组件和功能分析组件;

分组方案组件,用于根据实验需求将样本进行分组;

otu筛选组件,用于按照需要筛选otu,自动生成后续分析所需要的otu丰度表格以对样本进行筛选,接着对筛选出的样本进行分析;

物种分类分析组件,用于对样本进行针对不同分类水平,在物种层面进行分析;

alpha多样性分析组件,用于对样本进行α多样性指数、稀释曲线和α多样性差异分析;

beta多样性分析组件,用于对样本进行样本距离分析、upgma聚类树、多元统计分析和群落结构差异分析;

功能分析组件,用于对样本进行picrust、tax4fun和funguild分析。

可选地,转录组分析平台单元包括:第二流程分析子单元和第二结果交互分析子单元;

第二结果交互分析子单元包括:总览组件、样本关系组件、基因筛选组件、差异分析组件、基本功能分析组件和高级功能分析组件;

总览组件,用于展示项目标号、样本名称、分组方案及样本间差异方案、测序数据;

样本关系组件,用于对样本进行分组并进行后续分析或样本件关系分析;

基因筛选组件,用于对样本进行基因筛选和基因序列筛选;

差异分析组件,用于对比较组样本的基因进行表达量差异分析;

基本功能分析组件,用于对样本进行go、kegg功能富集分析;

高级功能分析组件,用于对样本选择分组并进行参数设置后再进行趋势分析。

可选地,遗传图谱分析平台单元包括:第三流程分析子单元和第三结果交互分析子单元;

第三结果交互分析子单元包括:表型导入与分析组件、标记筛选过滤组件和qtl分析组件;

表型导入与分析组件,用于按照输入文件格式选择上传原始表型记录文件,并进行表型分析参数设定,来提交表型分析任务,得到处理后的表型文件;

标记筛选过滤组件,用于对处理后的表型文件进行过滤参数的设置,进行图谱标记过滤,得到处理后的基因型文件;

qtl分析组件,用于对表型文件和基因型文件进行qtl分析。

可选地,还包括:快捷组件;

快捷组件,用于连接到生物信息知识共享平台。

本发明的优点在于,通过本发明可以实现:对于一些无生物信息经验或经验不足的用户来说,当在操作过程中有任何知识欠缺时,可以便捷地进入能够提供丰富多组学知识的集课堂、论坛、分析于一体的知识共享平台,学习专业知识和解决相关操作问题。

附图说明

图1为本发明实施例的整合多组学知识库的交互式生物信息云分析平台;

图2为本发明实施例的生物信息知识共享平台;

图3为本发明实施例的生物信息在线分析交互平台;

图4为本发明实施例的生物信息在线分析交互平台的分析平台模块;

图5为本发明实施例的生物信息在线分析交互平台的微生物多样性分析平台单元;

图6为本发明实施例的微生物多样性分析平台单元的第一结果交互分析子单元;

图7为本发明实施例的生物信息在线分析交互平台的转录组分析平台单元;

图8为本发明实施例的转录组分析平台单元的第二结果交互分析子单元;

图9为本发明实施例的生物信息在线分析交互平台的遗传图谱分析平台单元;

图10为本发明实施例的遗传图谱分析平台单元的第三结果交互分析子单元。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。

如图1所示,本发明实施例提供一种整合多组学知识库的交互式生物信息云分析平台,主要包括了两大部分,分别为生物信息知识共享平台和生物信息在线分析交互平台。

生物信息知识共享平台包括但不限于:云平台模块、在线课堂模块和论坛模块;

云平台模块,用于提供生物信息分析所需的作图软件;

在线课堂模块,用于提供各项组学技术的课堂和工具软件的实操教程;

论坛模块,用于提供在线经验交流的服务。

这样在遇到分析问题时,可以进入在线课堂模块选取相应的技术操作课程或相关组学技术课程,进行针对性的学习;在需要制作不同的分析图时,可以通过云平台模块查询多种作图软件,绘制出满意的图;也可以进入论坛进行提问或者交流,这样能更加方便、快捷地解决问题。

可选地,生物信息在线分析交互平台包括但不限于:项目模块、任务模块和分析平台模块。

可选地,项目模块包括但不限于:项目数据列表单元和项目搜索框单元;

项目数据列表单元,用于展示用户所要分析的所有的项目信息;

其中,项目信息包括但不限于:项目编号、项目类型、流程、状态、开始时间、结束时间和操作等;

项目搜索框单元,用于对流程名称的关键字进行项目信息的查询。

可选地,任务模块包括但不限于任务数据列表单元和任务搜索框单元;

任务数据列表单元,用于记录用户所进行过的所有的任务信息;

其中任务信息包括但不限于:任务编号、项目编号、项目类型、流程、状态、开始时间、结束时间和操作等。

任务搜索框单元,用于对任务名称的关键字进行任务信息的查询。

可选地,分析平台模块包括但不限于:微生物多样性分析平台单元、转录组分析平台单元和遗传图谱分析平台单元。

可选地,微生物多样性分析平台单元包括但不限于:第一流程分析子单元和第一结果交互分析子单元;

第一结果交互分析子单元包括但不限于:分组方案组件、otu筛选组件、物种分类分析组件、alpha多样性分析组件、beta多样性分析组件和功能分析组件;

分组方案组件,用于根据实验需求将样本进行分组;

otu筛选组件,用于按照需要筛选otu,自动生成后续分析所需要的otu丰度表格以对样本进行筛选,接着对筛选出的样本进行分析;

物种分类分析组件,用于对样本进行针对不同分类水平,在物种层面进行分析;

alpha多样性分析组件,用于对样本进行α多样性指数、稀释曲线和α多样性差异分析;

beta多样性分析组件,用于对样本进行样本距离分析、upgma聚类树、多元统计分析和群落结构差异分析;

功能分析组件,用于对样本进行picrust、tax4fun和funguild分析。

可选地,转录组分析平台单元包括但不限于:第二流程分析子单元和第二结果交互分析子单元;

第二结果交互分析子单元包括但不限于:总览组件、样本关系组件、基因筛选组件、差异分析组件、基本功能分析组件和高级功能分析组件;

总览组件,用于展示项目标号、样本名称、分组方案及样本间差异方案、测序数据;

样本关系组件,用于对样本进行分组并进行后续分析或样本件关系分析;

其中,样本关系分析包括但不限于用pca分析、相关性热图分析、样本聚类图分析、重复性散点图分析等。

基因筛选组件,用于对样本进行基因筛选和基因序列筛选;

其中,基因筛选可以是通过输入基因名称或者功能,筛选一个或多个基因,所述基因序列筛选可以是根据输入的基因id,得到基因的序列信息;

差异分析组件,用于对比较组样本的基因进行表达量差异分析;

其中,在总览组件中展示了所有比较组样本的差异表达结果,可以用差异基因统计柱状图和聚类热图进行结果展示;分组详情部分是分别展示各个比较组的差异表达结果,可以自主设置来q值、差异倍数和基因丰度等参数来实时输出差异基因表达量结果,可以用柱状图或盒型图或火山图或散点图或折线图呈现,同时也输出了实时热图或差异基因雷达图。

基本功能分析组件,用于对样本进行go、kegg功能富集分析;具体包括但不限于是对某个特定的基因集或者差异结果分析集进行go、kegg功能富集分析,也可利用韦恩图对不同基因集间共有或特有的基因进行分析。

高级功能分析组件,用于对样本选择分组并进行参数设置后再进行趋势分析;具体包括但不限于:通过选择分组并进行趋势数量、显著趋势p值、基因筛选的最小变化倍数等参数设定,来对选择关注的基因集或差异分析结果集进行趋势分析。

可选地,遗传图谱分析平台单元包括但不限于:第三流程分析子单元和第三结果交互分析子单元;

第三结果交互分析子单元包括但不限于:表型导入与分析组件、标记筛选过滤组件和qtl分析组件;

表型导入与分析组件,用于按照输入文件格式选择上传原始表型记录文件,并进行表型分析参数设定,来提交表型分析任务,得到处理后的表型文件;

具体可以是:如果是已经进行分析过的表型,用户可以根据任务名称直接查看表型分析结果。如果是新的表型分析,可以通过点击“开始新的表型分析”按钮,按照输入文件格式选择上传原始表型记录文件,并可以自主进行表型分析参数设定,来提交表型分析任务。在表型导入与分析组件中的任务总览中可以看到各个分析任务的进度,表型分析结果一般以表型分布频率直方图+拟合线、表型分布箱型图、表型分布相关性热图等形式进行展示。对于前两种结果,用户可以自主选择全部或者部分样本进行结果展示及下载。另外,用户可以自主修改图片的字体、颜色、下载形式等。

标记筛选过滤组件,用于对处理后的表型文件进行过滤参数的设置,进行图谱标记过滤,得到处理后的基因型文件;

具体可以是:通过“开始新的标记过滤”进行包括标记缺失率、最小标记遗传距离、最小标记物理距离等过滤参数的设置,重新进行图谱标记过滤。分析结果展示主要包括图谱标记概况统计表格、遗传图谱示意图以及所有样本的基因型信息。

qtl分析组件,用于对表型文件和基因型文件进行qtl分析;

具体可以是:用户可以在“开始新的qtl分析”选项下,在“文件概要查看”栏,选择前面处理好的表型和基因型文件。可以选择多个不同组的表型数据或者某一组表型数据,来进行qtl分析。

可选地,还包括但不限于:快捷组件;

快捷组件,用于连接到生物信息知识共享平台。如在第一结果交互分析子单元、第二结果交互分析子单元、第三结果交互分析子单元中均可以是可选地包含快捷组件,通过点击“快捷组件”可以进入生物信息知识共享平台,进而方便地访问平台模块、在线课堂模块及论坛模块等。

如图2所示,生物信息知识共享平台是集云平台模块、在线课堂模块及论坛模块于一体方便为用户提供相关生物信息分析知识的平台。其中,

云平台模块,为用户提供了生物信息分析需要的多种作图软件,来满足作图需求;对于各个软件的使用,还配套相关说明及操作示例,方便没有生物信息基础的用户进行作图。

在线课堂模块,收集整理了各项组学技术的课程和工具软件实操教程等,便于用户在遇到操作问题的时候进行针对性的学习。

论坛模块,提供让用户在线进行提问,寻求帮助,也可以在线进行经验交流的服务,同时,也可以让用户查看收集一些热门精华帖子。

如图3所示,生物信息在线分析交互平台,包括:项目模块、任务模块和分析平台模块,具体地:

项目模块,包括项目数据列表单元和项目搜索框单元。项目数据列表单元可以清晰地展示出用户所有分析项目的相关信息,包括项目编号、项目类型、流程、状态、开始时间、结束时间和操作等信息;项目搜索框单元中可以输入搜索的流程名称的关键字进行项目信息查询。

任务模块,包含了任务数据列表单元和任务搜索框单元。任务数据列表详细记录了用户所进行过的所有任务的任务编号、项目编号、项目类型、流程、状态、开始时间、结束时间和操作等信息;任务搜索框单元中可以输入搜索任务名称的关键字来进行任务详情查找。

如图4所示,分析平台模块,主要包括3部分,分别为微生物多样性分析平台单元、转录组分析平台单元和遗传图谱分析平台单元。用户可以根据自己项目的内容选择对应的分析平台进行原始数据的流程分析或者交互式分析。具体地,

如图5-6所示,微生物多样性平台单元,在该平台可以包括第一流程分析子单元和第一结果交互分析子单元。其中,第一结果交互分析子单元主要包括分组方案组件、otu(运算的分类单位)筛选组件、otu分析组件、物种分类分析组件、alpha多样性分析组件、beta多样性分析组件、功能分析组件和环境因子分析组件等:具体地

(1)分组方案组件,根据实验需求将样本进行分组。

(2)otu筛选组件,可以按照需要筛选otu,自动生成后续分析所需的otu丰度表格;接着对筛选出的样本进行后续分析;otu分析结果以pca分析(主成分分析)和韦恩图形式进行展示。

(3)物种分类分析组件,是针对不同分类水平,在物种层面进行分析;主要包括物种组成饼图、分布堆叠图、丰度热图及组间差异比较分析。

(4)alpha多样性分析组件,即α多样性指数、稀释曲线及α多样性差异分析;α多样性指数、稀释曲线是分别用柱状体和稀释曲线来动态展示不同样本的α多样性情况;α多样性差异分析结果则是用多种差异检验模型进行α多样性差异分析,并用盒形图展示不同样本(分组)的α多样性组件。

(5)beta多样性分析组件,主要包括了样本距离分析、upgma(非加权组平均法)聚类树、多元统计分析、群落结构差异分析等。

(6)功能分析组件,主要包括picrust、tax4fun、funguild分析。

如图7-8所示,转录组分析平台单元,包括第二流程分析子单元和第二结果交互分析子单元;其中,第二结果交互分析子单元,主要包括总览组件、样本关系组件、基因筛选组件、差异分析组件、基本功能分析组件、高级功能分析组件等;具体地

(1)总览组件,可以清楚地展示项目编号、样本名称、分组方案及样本间差异方案、测序数据等。

(2)样本关系组件,可以对样本进行分组并进行后续分析或者样本间关系分析;样本关系分析通常可以用pca分析、相关性热图分析、样本聚类图分析、重复性散点图分析等。

(3)基因筛选组件,包括基因筛选和基因序列筛选。基因筛选是通过输入基因名称或者功能,筛选一个或多个基因,所述基因序列筛选则根据输入的基因id,得到基因的序列信息。

(4)差异分析组件,是对比较组样本的基因进行表达量差异分析;其中,在差异分析组件的总览部分展示了所有比较组样本的差异表达结果,常用差异基因统计柱状图和聚类热图进行结果展示;差异分析组件的分组详情部分是分别展示各个比较组的差异表达结果,可以自主设置来q值、差异倍数和基因丰度等参数来实时输出差异基因表达量结果,可以用柱状图或盒型图或火山图或散点图或折线图呈现,同时也输出了实时热图或差异基因雷达图。

(5)基本功能分析组件,主要是对某个特定的基因集或者差异结果分析集进行go(基因本体论)、kegg(京都基因与基因组百科全书)功能富集分析,也可利用韦恩图对不同基因集间共有或特有的基因进行分析。

(6)高级功能分析组件,通过选择分组并进行趋势数量、显著趋势p值、基因筛选的最小变化倍数等参数设定,来对选择关注的基因集或差异分析结果集进行趋势分析;另外,还可以进行blast(基于局部比对算法的搜索工具)分析,将目标原始序列与数据库中的序列进行blast局部比对,找出比对上的序列。

对于所有组件的分析结果用户可以个人需求进行图形修改、字体修改、图形下载等操作。

如图9-10所示,遗传图谱分析平台单元,其主要是针对从事遗传育种研究的用户提供实时、便利的qtl云分析服务;遗传图谱分析平台包括:第三流程分析子单元和第三结果交互分析平台;第三结果交互分析子单元主要有表型导入与分析组件、标记筛选过滤组件和qtl分析组件;第三结果交互分析子单元还包括项目概况组件,主要是展示项目整体信息,如:物种、参考基因组、群体类型及个体总数等;具体地

(1)表型导入与分析组件,如果是已经进行分析过的表型,用户可以根据任务名称直接查看表型分析结果;如果是新的表型分析,可以通过点击“开始新的表型分析”按钮,按照输入文件格式选择上传原始表型记录文件,并可以自主进行表型分析参数设定,来提交表型分析任务。第三结果交互分析子单元还包括任务总览组件,在任务总览中可以看到各个分析任务的进度,表型分析结果一般以表型分布频率直方图+拟合线、表型分布箱型图、表型分布相关性热图等形式进行展示。对于前两种结果,用户可以自主选择全部或者部分样本进行结果展示及下载。另外,用户可以自主修改图片的字体、颜色、下载形式等。

(2)标记筛选过滤组件,可以通过“开始新的标记过滤”进行包括标记缺失率、最小标记遗传距离、最小标记物理距离等过滤参数的设置,对表型记录文件(如分析过的表型或新的表型分析)进行图谱标记过滤,当然可以对上述过滤参数进行调整,重新进行图谱标记过滤;分析结果展示主要包括图谱标记概况统计表格、遗传图谱示意图和所有样本的基因型文件。

(3)qtl分析组件,用户可以在“开始新的qtl分析”选项下,在“文件概要查看”栏,选择前面处理好的表型和基因型文件,可以选择多个不同组的表型数据或者某一组表型数据,来进行qtl分析。

同时可以进行qtl分析模型选择、阈值、lod(检出限)置信区间等参数设定。分析结果包含了3部分:1)总览,展示了各个形状在染色体分布的动态示意图,用户可以通过勾选来进行结果展示。2)lod图(性状+染色体),主要包含了整体展示图,即某个形状的lod值在所有连锁群的分布图;某个形状lod值在各个连锁群分布的独立展示图,可以选择需要的连锁群进行展示。3)qtl区间与相关基因解析,包含了4部分信息,qtl区间的信息、区间基因的信息、区间基因go富集分析结果及区间基因kegg富集分析结果。

与现有技术相比,本发明具有如下有益效果:

(1)通过云端服务平台封装式的设计,将能够提供多组学的生物信息知识的共享平台和生物信息分析流程等进行整合,实现交互分析。使生物信息操作更加简便、数据安全性更高,使得无生物信息基础的用户也能独立完成复杂的生物信息分析。

(2)整合多组学知识库的交互式生物信息云分析平台包含了微生物多样性分析平台、转录组分析平台和遗传图谱分析平台,涵盖了多条业务线,当用户在进行多种不同的组学分析时,可以一次登录系统查看多项分析结果,并进行所需的项目数据分析。

(3)用户可以通过进入生物信息知识共享平台的云平台模块、在线课堂模块及论坛模块等,还可以在具体的分析平台单元(如第一、第二、第三结果交互分析子单元)中均包含快捷组件,通过点击“快捷组件”进入生物信息知识共享平台,进而方便地访问平台模块、在线课堂模块及论坛模块等。在遇到分析问题时,可以方便进入生物信息知识共享平台,可以进入在线课堂模块选取相应的技术操作课程或相关组学技术课程,进行针对性的学习;在需要制作不同的分析图时,可以在云平台模块查询多种作图软件,绘制出满意的图;也可以进入论坛模块进行提问或者交流,这样能更加方便、快捷地解决问题。这样使无编程基础的人员也能进行数据分析,具有操作简单、数据安全性高及分析结果动态化等优点,同时,也减轻了生物分析人员的工作负担,达到了用户与生物信息分析人员双赢的效果。

(4)如果用户对给出的分析结果或者图形不满意时,可以在结果交互分析子单元上自主进行参数设置及筛选、对图片的颜色、字体及下载格式进行随意调整和修改。根据个人的不同需求,将结果以最完美的方式进行展示。这样,既能满足用户的个性化需求,也省略了让生物信息人员进行重新修改图片的麻烦,提高了工作效率,实现了用户与分析人员双赢的效果。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1