一种基于galaxy的生信分析paas云平台系统的制作方法

文档序号:22239119发布日期:2020-09-15 19:50阅读:234来源:国知局
本发明涉及生信分析
技术领域
:,具体地说,涉及一种基于galaxy的生信分析paas云平台系统。
背景技术
::随着高通量测序等各种组学技术的发展,生物医学研究大数据处理和分析的需求愈发迫切,由于,生物信息分析中数据量大,数据处理速度慢,影响数据处理效果,同时,平台内的数据库信息无法及时更新,在进行分析时,无法需现有的最新数据进行对比,影响数据分析效果。技术实现要素:本发明的目的在于提供一种基于galaxy的生信分析paas云平台系统,以解决上述
背景技术
:中提出的问题。为实现上述技术问题的解决,本发明的目的之一在于,提供一种基于galaxy的生信分析paas云平台系统,包括web服务单元、数据存储单元、集群管理单元、数据格式转换单元和数据分析单元,所述web服务单元用于用户注册、认证和页面展示;所述数据存储单元用于将生物信息录入数据库内;所述集群管理单元用于实现集群状态监控和资源调度;所述数据格式转换单元用于实现数据格式的转化;所述数据分析单元用于对生物信息进行分析。作为本技术方案的进一步改进,所述web服务单元包括用户认证模块、权限管理模块和角色定义模块;所述用户认证模块用于认证用户信息;所述权限管理模块用于为用户设定权限;所述角色定义模块用于认证用户角色。所述用户认证模块基于mysql中建立用户信息表,其创建步骤如下:①、确定用户信息字段,用户信息只有一些常用的、比较重要的信息,由于需要邮件验证,所以还需要保存临时验证码;②、建立用户表,其函数代码如下:createtableuser(idint(10)unsignednotnullauto_increment,uidvarchar(20)notnulldefault'',passwordvarchar(30)notnulldefault'',realnamevarchar(20)notnulldefault'',gendertinyint(1)unsignednotnulldefault'0',emailvarchar(50)notnulldefault'',telvarchar(15)defaultnull,questionvarchar(50)defaultnull,validatecodevarchar(20)notnulldefault'',answervarchar(50)notnulldefault'',loginnumint(10)unsignednotnulldefault'0',primarykey(id));③、创建注册提交表单;④、客户端验证数据有效性;⑤、检测用户名是否已存在,其检测函数代码如下:<%stringuid=request.getparameter("uid");userserviceservice=newuserservice();booleanisexist=service.checkuid(uid);%><%if(isexist){%>此用户名已经存在,请选用一个新用户名!<%}else{%>此用户名尚未被使用!<%}%>⑥、保存注册信息到数据库,用servlet根据提交来的数据来处理请求,检查合法性,并将合法的数据持久化。所述角色定义模块可根据用户的职业类型定义不同的角色,以便于在系统根据角色的不同展示不同的信息数据,以便于用户使用。作为本技术方案的进一步改进,所述数据存储单元包括数据录入模块、数据下载模块和数据更新模块;所述数据录入模块用于将生物信息录入数据库内;所述数据下载模块用于从互联网下载生物信息,并录入数据库内;所述数据更新模块用于更新数据库内储存的生物信息。所述数据存储单元的数据库基于mysql设计,在mysql运行环境下,使用loaddata语句把文件里面的数据读取录入到表里面。所述数据下载模块用于从ncbi、ucsc等国际网站下载数据库。作为本技术方案的进一步改进,所述数据更新模块采用分时更新方法,其更新列表和处理时间数据表关系入下式所示:式中,为数据库中的数据添加时间,为数据库中的数据删除时间,为主键,为显示的其他属性。当数据删除时,通过设置数据逻辑删除,删除时从左开始记录,在事物处理时,在时间的数据用表示,其公式如下:式中,为数据库数据增加的时间,为数据库数据删除的时间,随着时间的改变而改变。作为本技术方案的进一步改进,所述集群管理单元包括集群状态监控模块、资源调度模块和软件集成模块;所述集群状态监控模块用于对集群的状态进行监控,并获取状态数据;所述软件集成模块用于对生物信息工具软件进行集成管理。所述集群状态监控模块包括cpu资源利用率获取和内存使用率获取,所述cpu资源利用率获取的计算方法为:记,服务器的总状态为=,一段时间内服务器的cpu资源利用率为:所述内存使用率获取的计算公式为:。作为本技术方案的进一步改进,所述数据格式转换单元包括数据类型转换模块、数据语义转换和数据粒度转换模块;所述数据类型转换模块用于将不同数据源的数据类型统一转换兼容的数据类型;所述数据语义转换用于结合维度表进行语义上的解析;所述数据粒度转换模块根据数据的粒度进行整合。作为本技术方案的进一步改进,所述数据分析单元包括数据挖掘模块、数据优化模块和数据对比模块;所述数据挖掘模块用于对数据进行挖掘,提取特征信息;所述数据优化模块用于对数据进行优化处理;所述数据对比模块用于对数据进行匹配。所述数据分析单元基于galaxy建设,galaxy是一个用于生物学数据处理的基于web的开源软件框架,将galaxy部署在本地高性能集群上以进行大规模数据处理,利用分布式资源管理应用编程接口,实现sungridengine和galaxy的协同。作为本技术方案的进一步改进,所述数据对比模块采用needleman-wunsch比对算法找出最佳匹配,其算法公式如下:其中,时序列a在位置i和序列b在位置j的分值,是位置i和j上比对分值,是在序列a中长度为x的间隔罚分,是序列b中长度为y的间隔罚分。本发明的目的之二在于,提供一种基于galaxy的生信分析paas云平台装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于galaxy的生信分析paas云平台系统。本发明的目的之三在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于galaxy的生信分析paas云平台系统。与现有技术相比,本发明的有益效果:1、该基于galaxy的生信分析paas云平台系统中,对生物数据进行集群管理,实时监控集群的状态,并对数据处理的资源进行调度,提高数据处理效率。2、该基于galaxy的生信分析paas云平台系统中,数据分析过程中,先对数据进行挖掘,提取特征信息,再对数据进行优化处理,最后对数据进行匹配,分析数据结果,加速数据分析过程,促进了生物医学研究的发展。3、该基于galaxy的生信分析paas云平台系统中,通过数据录入模块主动录入生物信息数据,通过数据下载模块从互联网下载生物信息,并通过数据更新模块实时更新生物数据,保障数据库内生物信息的完整性,为分析提供准确的数据支撑。附图说明图1为实施例1的整体框图;图2为实施例1的web服务单元模块框图;图3为实施例1的数据存储单元模块框图;图4为实施例1的集群管理单元模块框图;图5为实施例1的数据格式转换单元模块框图;图6为实施例1的数据分析单元模块框图;图7为实施例1的云平台装置结构示意图。图中各个标号意义为:100、web服务单元;101、用户认证模块;102、权限管理模块;103、角色定义模块;200、数据存储单元;201、数据录入模块;202、数据下载模块;203、数据更新模块;300、集群管理单元;301、集群状态监控模块;302、资源调度模块;303、软件集成模块;400、数据格式转换单元;401、数据类型转换模块;402、数据语义转换;403、数据粒度转换模块;500、数据分析单元;501、数据挖掘模块;502、数据优化模块;503、数据对比模块。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1如图1-7所示,本实施例提供一种基于galaxy的生信分析paas云平台系统,包括web服务单元100、数据存储单元200、集群管理单元300、数据格式转换单元400和数据分析单元500,web服务单元100用于用户注册、认证和页面展示;数据存储单元200用于将生物信息录入数据库内;集群管理单元300用于实现集群状态监控和资源调度;数据格式转换单元400用于实现数据格式的转化;数据分析单元500用于对生物信息进行分析。本实施例中,web服务单元100包括用户认证模块101、权限管理模块102和角色定义模块103;括用户认证模块101用于认证用户信息;权限管理模块102用于为用户设定权限;角色定义模块103用于认证用户角色。其中,用户认证模块101基于mysql中建立用户信息表,其创建步骤如下:①、确定用户信息字段,用户信息只有一些常用的、比较重要的信息,由于需要邮件验证,所以还需要保存临时验证码;其信息表如下:序号字段类型和长度描述主键可空默认值1idinteger自增型的主键是否无2uidvarchar(20)用户账号否否无3passwordvarchar(30)密码否否无4realnamevarchar(20)用户真实姓名否否无5gendertinyint(1)性别:0,女;1,男否否无6emailvarchar(50)e-mail地址否否无7telvarchar(15)联系电话否是无8questionvarchar(50)密码提示问题否否无9answervarchar(50)问题答案否否无10validatecodevarchar(20)验证码,当激活过后,该字段置为activated,表示已经激活否是无11loginnuminteger登陆次数否否无②、建立用户表,其函数代码如下:createtableuser(idint(10)unsignednotnullauto_increment,uidvarchar(20)notnulldefault'',passwordvarchar(30)notnulldefault'',realnamevarchar(20)notnulldefault'',gendertinyint(1)unsignednotnulldefault'0',emailvarchar(50)notnulldefault'',telvarchar(15)defaultnull,questionvarchar(50)defaultnull,validatecodevarchar(20)notnulldefault'',answervarchar(50)notnulldefault'',loginnumint(10)unsignednotnulldefault'0',primarykey(id));③、创建注册提交表单;④、客户端验证数据有效性;⑤、检测用户名是否已存在,其检测函数代码如下:<%stringuid=request.getparameter("uid");userserviceservice=newuserservice();booleanisexist=service.checkuid(uid);%><%if(isexist){%>此用户名已经存在,请选用一个新用户名!<%}else{%>此用户名尚未被使用!<%}%>⑥、保存注册信息到数据库,用servlet根据提交来的数据来处理请求,检查合法性,并将合法的数据持久化。其中,角色定义模块103可根据用户的职业类型定义不同的角色,以便于在系统根据角色的不同展示不同的信息数据,以便于用户使用。进一步的,数据存储单元200包括数据录入模块201、数据下载模块202和数据更新模块203;数据录入模块201用于将生物信息录入数据库内;数据下载模块202用于从互联网下载生物信息,并录入数据库内;数据更新模块203用于更新数据库内储存的生物信息。其中,数据存储单元200的数据库基于mysql设计,在mysql运行环境下,使用loaddata语句把文件里面的数据读取录入到表里面。其中,数据下载模块202用于从ncbi、ucsc等国际网站下载数据库。具体的,数据更新模块203采用分时更新方法,其更新列表和处理时间数据表关系入下式所示:式中,为数据库中的数据添加时间,为数据库中的数据删除时间,为主键,为显示的其他属性。其中,当数据删除时,通过设置数据逻辑删除,删除时从左开始记录,在事物处理时,在时间的数据用表示,其公式如下:式中,为数据库数据增加的时间,为数据库数据删除的时间,随着时间的改变而改变。此外,集群管理单元300包括集群状态监控模块301、资源调度模块302和软件集成模块303;集群状态监控模块301用于对集群的状态进行监控,并获取状态数据;软件集成模块303用于对生物信息工具软件进行集成管理。其中,集群状态监控模块301包括cpu资源利用率获取和内存使用率获取,cpu资源利用率获取的计算方法为:记,服务器的总状态为=,一段时间内服务器的cpu资源利用率为:其中,内存使用率获取的计算公式为:。除此之外,数据格式转换单元400包括数据类型转换模块401、数据语义转换402和数据粒度转换模块403;数据类型转换模块401用于将不同数据源的数据类型统一转换兼容的数据类型;数据语义转换402用于结合维度表进行语义上的解析;数据粒度转换模块403根据数据的粒度进行整合。再进一步的,数据分析单元500包括数据挖掘模块501、数据优化模块502和数据对比模块503;数据挖掘模块501用于对数据进行挖掘,提取特征信息;数据优化模块502用于对数据进行优化处理;数据对比模块503用于对数据进行匹配。其中,数据分析单元500基于galaxy建设,galaxy是一个用于生物学数据处理的基于web的开源软件框架,将galaxy部署在本地高性能集群上以进行大规模数据处理,利用分布式资源管理应用编程接口,实现sungridengine和galaxy的协同。再进一步的,数据对比模块503采用needleman-wunsch比对算法找出最佳匹配,其算法公式如下:其中,时序列a在位置i和序列b在位置j的分值,是位置i和j上比对分值,是在序列a中长度为x的间隔罚分,是序列b中长度为y的间隔罚分。参阅图7,示出了本实施例所涉及的提供一种基于galaxy的生信分析paas云平台装置结构示意图,该装置包括处理器、存储器和总线。处理器包括一个或一个以上处理核心,处理器通过总线与处理器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于galaxy的生信分析paas云平台系统。可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于galaxy的生信分析paas云平台系统。可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于galaxy的生信分析paas云平台系统。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储与一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1