健康护理分析流的管理的制作方法_2

文档序号:8531913阅读:来源:国知局
通信,也许是通过一或多个中间设备。
[0026] 概沭 优选的,一基因组分析流管理系统包含一大规模的可扩展系统,用于预分析,注解,或 分析原始序列数据以产生基因组数据的分析结果。预期的系统有助于基于基因组数据实时 的把可用的即时信息提供给健康护理提供者,病人,科学家,或其它用户。当现有技术花费 几天,几星期或几个月排序大约30亿碱基对的人类基因组,并安置20000至25000个基因 时,此基因组分析系统可在几分钟或几小时内完成相应的目标。系统通过预注解原始基因 数据,解析注解的基因数据包值多个分析节点,在大规模的,遍及大陆的分析网络上并行运 行这些分析,来完成这个目标,并可能通过发送/接收通知至一保健对象,一病人,健康护 理提供者,科学家或研宄员,或其他用户。此系统的有效和快速是基于运行于多个分析节点 的,通过一高流通量的网络,进行并行分析而得到的。基因组数据结果可以非常及时的提供 关于序列数据的预测,诊断,或其它分析。
[0027] 基因组分析流管理系统也管理整个网络的数据流。管理系统可以建立处理路由, 基于流量或分析的负载调整路由,管理分析引擎,启动或改变分析,请求额外分析以获得一 更高可信度的序列数据结果,或请求其它行动以有效的管理输入,处理,分析或输出。
[0028] 基因组数据可以是大规模的基因数据(例如,静态基因组信息,包括关于倍性/染 色体组形,杂合性,等位基因频率等,以及动态基因组信息,包括在静态信息,进化的分析数 据中改变的时间进程等),更高解析度的数据(例如,用于叠连群的基因组DNA和cDAN数 据,装配的叠连群,染色体,基因和/或疾病相关的序列信息,部分或全部的转录组数据,不 同类型的RNA数据,包括hnRNA,mRNA,snRNA,siRNA,剪接变体等),以及核酸组或核酸群的 信息(例如,密码子选择,不寻常的核酸碱基,特别用于RNA)。而且,应当了解基因组数据也 可包含上下文信息,优选的特别上下文信息包括涉及序列从属或参与的调控通路的数据, 其中调控通路可处于复制的,凋亡的,转录的,翻译的,或后翻译的水平。因而,应当注意信 息也可以与核酸序列编码的蛋白质产品的活动或功能相关/相联,和/或可以与蛋白质组 数据相关。在进一步的预期的发展中,基因组数据也可以包含或涉及疾病相关的信息(例 如,序列和/或管理数据同病原体或病理生理学相关)。
[0029] 分布式的分析系统网络可以是基于基因组分析系统或任何计算设备配置的计算 机/服务器,包括服务器,接口,系统,数据库,代理点,对端,引擎,模块,控制器,或其它类 型的独立运行或集中运行的计算设备。分析系统可以有多个分析节点,其中那些节点可以 在地理上分布。一分布式网络系统的例子是它可以适用于公开的分布式基因组分析流管理 系统,包括 National LambdaRail?(NLR) 〇
[0030] 节点可以贯穿整个国家分布,包括大学或联邦实验室,以及可能的国际设施以进 行分析。NLR具有相关十三个成员的区域网络:CENIC,Florida LambdaRail,Front Range GigaPoP/University Corporation for Atmospheric Research, Lonestar Education and Research Network, Mid-Atlantic Terascale Partnership:MATP/Virginia Tech Foundation, North Carolina Light Rail, Oak Ridge National Laboratory, Oklahoma State Regents for Higher Education, Pacific Northwest Gigapop, Pittsburgh Supercomputing Center/University of Pittsburgh, Southeastern Universities Research Association,Southern Light Rail, University of New Mexico (代表 State of New Mexico)〇
[0031] 图 I 中,显不了申请人可进入的 National LambdaRaiItm(NLR) 190。
[0032] NLR 190是遍布全国的,先进的光纤网络基础设施,可以作为主干网用于预期的分 布式分析系统。NLR 190是一高速的,光纤网络基础设施,覆盖了 12000英里,遍布了美国的 21个洲。NLR 190在使用上并没有强加任何限制,比如进行商业传输,提供用户以完全的灵 活性和控制力。NLR 190具有全部的1600Gbps容量,以完成了 40G的部分,并计划在进行中 (自2012起)的100G的部分,NLR 190是尖端的网络平台,可广泛的用于先进的研宄项目 和公私合营的项目。超过280个参与的大学和联邦实验室使用了 NLR 190。NLR 190是第 一横贯大陆的,具有IO-Gbit容量的以太网。NLR 190具有5个国际交换点,并通过合作伙 伴依靠 Global Lambda Integrated Facility与全世界网络相连。
[0033] 基闵组分析流管理系统 图2显示了一基因组分析系统200的概略图。
[0034] 分析引擎240可以分布于多个节点(例如节点230, 231,232, 233, 234和235是 用于说明的节点,但实际并不仅限于图2中显示的节点),并通过网络互相连接,比如NLR 290, 一光纤网络,一集成或独立的广域网,城域网,企业专用网络,虚拟专用网络,内联网, 无线网络,或其它网络。
[0035] 节点230, 231,232, 233, 234和235可包括计算机,客户端,服务器,对端,或优选 的包括高性能计算设备(HPCs)。节点也可包括网络基础设施本身,交换机(例如Cisco? ,Junipcd等),调制解调器,中继器,集线器,网桥,应用层网关,路由器,多层交换机,转换 器,主机总线适配器,防火墙,或其它网络产品。节点230, 231,232, 233, 234和235可被认为 取代基因组分析,其中每个节点可包括一或多个基因组分析模块,模块可以分析序列数据。
[0036] 节点230, 231,232, 233, 234和235通常为基因分析节点,通常目的节点为基因组 分析设置或编译,节点专用于一特别的基因组分析作用或职责,比如路由,处理,排序,转 移,数据清理,映射,或其它功能。无论一特别的节点的作用或职责如何,在某些实施例中这 些作用或职责可以从一些丢失的节点中把功能迀移至另一节点。
[0037] 节点230, 231,232, 233, 234和235可包括分析管理节点230,节点230掌握着一 特别的分析过程,例如DNA和RNA序列分析,基因表达谱,排列分析,基因组比较分析,模式 搜索,DNA主题分析,DNA启动分析,DNA和/或RNA二级和三级结构分析,DNA复制数变异, DNA甲基化,微小RNA分析,mRNA表达谱,剪接变体分析,蛋白质序列(以及在某些情况下的 结构)分析,或其它基因组分析工具和方法(例如,系统树装配,进化距离计算,突变率的测 定等)。
[0038] 节点的一可接受的形式可包括一或多个建模引擎,并如共有的美国临时专利 所述,此引擎运行于图形处理单元(GPUs)上。此专利的专利号为61/673943,申请日为 2012/07/20中,并且它与涉及的专利合并成一体,并且具有优先权。
[0039] 节点230, 231,232, 233, 234和235可包括分析设备管理功能,并掌管了系统的部 分功能或基因组分析系统的全部功能。可以有一管理节点230,作为系统的一接口运行,并 具有自动的或用户生成的仪表盘,以监视或管理基因组数据流,或基因组分析流。管理节点 230可用于在数据上创建注释或标记,创建处理指令,标准化数据或分析,管理存储器,或其 它功能。管理节点230可定义常量,命名规范,属性,浏览方法,操作方法,使用方法,数据和 分析质量控制参数,和其它功能。管理节点230可提供一接口,通过它用户(例如,一系统 管理员,管理员,终端用户等)可用于提出功能和分析请求。管理节点230可通过一 API,一 客户端计算机或服务器,笔记本电脑,平板电脑,移动设备,浏览器,或其它接口进行配置或 编译。管理节点230可用于添加,重复,改变,或取消分析;确定或设置序列数据的属性;合 并或排列在基因组数据库储藏室内的序列数据;以另一路线分析;或其它功能。
[0040] 节点230, 231,232, 233, 234和235可根据要求,独自运行或合并运行。节点230, 231,232, 233, 234和235可串行的,并行地,反复的,或其中一些方法的组合运行。当一病人 需要特别分析或紧急处理时,或数据的特别分析需要大量的处理时间/资源时,这种方式 是有利的。
[0041] 分析引擎240由节点230, 231,232, 233, 234或235,以及网络290组成。分析引擎 240可能运行于管理节点230的支配之下。分析引擎240从排序设备210, 211,或212 (排 序设备210,211,或212是用于说明的设备,但实际并不仅限于图2中显示的设备)中获得 基因数据。排序设备210,211,或212可用于配置或编译同分析引擎240的通信(例如,弓丨 擎240作为一整体,个体节点230-235,通过管理节点230等)。排序设备210, 211,或212 可通过排序设备接口 220, 221,或222或其它因特网,网络,或通信协议和接口,与分析引 擎240进行通信。接口的实例可以是一或多个协议,可能包括的协议如下:Transmission Control Protocol (TCP),Hypertext Transfer Protocol(HTTP),Common Internet File System(CIFS), Network File System(NFS),File Transfer Protocol(FTP),Secure File Transfer Protocol (SFTP),Hypertext Transfer Protocol Secure(HTTPS),Network Address Translation (NAT) ,Secure Copy Protocol (SCP),或其它已知的或未实现的协议。 例如,排序设备210至212可以配置成在一或多个防火墙后运行。在相应的提供者办公室 配置时,排序设备210至212可通过防火墙发送一 HTTP请求至一或多个设备接口 220至 222,设备接口 220至222可被配置为一 HTTP服务器。在请求接收时,设备接口 220至222 可建立一与相应的序列设备的连接(例如,一 TCP/IP会话,SSL会话等),并可能穿过防火 墙,通过一 NAT连接。排序设备210至212随后可以通过接口 220至222,发送它们的基因 组数据至节点230至235,基因组数据可作为一原始数据流,作为通过FTP传送的文件,作为 一 XML流,或其它格式。
[0042] 例如,一分析流管理的初始实验利用了一专有的基于UDP的主从式架构,它被称 为"输送者",其中数据流使用AES-128编码加密。初始的实验包括20个输送者客户端的实 例,每个运行于Sunnyvale市,加州,每个都具有双线程,最大传输单元为9000,每线程的传 输速率限制为240Mb/ sec。所有的输送者客户端的实例同时连接三个运行的输送者服务器 的实例,服务器位于Phoenix市,亚利桑那州。所有的传送和处理的统计数据都使用Zabbix 监视包收集。由Phoenix的防火墙测量,传输速度的中间值为8. 232Gb/sec,其中最高的1% 达到了高于9. 55. Gb/sec的尖峰值。这个总体的传输速度代表了每17. 4秒一外显子组的 吞吐量。在实验设置中,流对象代表了数据流从一端流向另一端(例如,线程和输送者的实 例),以用于每个病人,以及数据的分析和传送。此
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1