安全的移动基因组浏览设备及用于其的方法与流程

文档序号:12142159阅读:301来源:国知局
安全的移动基因组浏览设备及用于其的方法与流程

技术领域

本发明的领域是在移动设备上存储、访问和使用组学(omic)数据,本发明尤其涉及在因移动设备产生的约束条件下的组学数据的演示和与组学数据的交互(interaction)。



背景技术:

本背景描述包括可以用于理解本发明的信息。本背景并不是承认本文提供的任何信息是现有技术或与目前要求保护的本发明相关,或不承认具体或隐含引用的出版物是现有技术。

本文中的所有出版物通过引用被并入到以下程度:好像每一个单独的出版物或专利申请被具体地且单独地表示为通过引用被并入。如果并入的参考文献中的术语的定义或应用与本文提供的该术语的定义不一致或相反,那么以本文提供的该术语的定义为准,而参考文献中的该术语的定义并不适用。

分析个体的基因组数据在个性化医疗方面拥有巨大的前景。单个人的全基因组序列可以包括超过3,000,000,000个碱基对,假设仅存储原始基因组数据和单覆盖度的话,那么单单这些碱基对就可能需要约3GB的存储空间。如果原始序列读长被存储且如果基因组被读取到例如30-50x的深度,那么全基因组可能消耗甚至更大的存储量。因此,通常将大型计算机系统用于分析基因组信息。遗憾的是,可获得的与基因组相关的信息的庞大尺寸和规模妨碍了访问的便利,对于手持移动设备常用的护理现场尤其如此。例如,2002年8月6日提交的Szeto的题目为“Analysis Engine and Work Space Manager for Use with Expression Data”的美国专利US7,251,642讨论了运行引擎,其允许通过工作区内的内存映射文件分析基因表达数据。虽然这样的方法可用于工作站,但对于移动设备是不适合的。

此外,已经取得了关于减少供演示的数据集合方面的一些进展。例如,2009年11月6日提交的Singh等人的题目为“System and Method for Analyzing Genome Data”的美国专利申请公开2010/0161607讨论了能够通过广域网将减少的或汇总的基因组数据提供给客户设备的基因组分析数据服务器。略微类似地,2013年1月28日提交的Plattner等人的题目为“System and Method for Genome Data Processing with an In-Memory Database System and Real-Time分析”的欧洲专利申请公开EP 2759963,描述了一种系统,该系统提供了支持医生和研究人员来识别某些肿瘤类型的基因来源的云应用。该系统还支持在移动设备上浏览基因。然而,仅仅提供基因组数据是不够的,即使在护理现场事件中也是如此。相反,该系统还需要维护个体的安全性或隐私性,同时还要响应紧急数据请求,尤其在智能电话或其它嵌入式设备的限制环境中。

在某种程度上,2009年11月6日提交的Tebbs等人的题目为“Interactive Genome Browser”的美国专利申请公开2010/0286994在互动性方面取得了进一步的进展。Tebbs描述了一种能以交互式方式请求来自基因组服务器的基因组数据的交互式基因组浏览器,但未能解释移动设备的基因组浏览约束条件。

令人惊奇地是,尽管上述技术在提供基因组数据方面取得了进展,但现有技术未能理解护理现场可能存在的需要。例如,事件的约束条件、移动设备的类型以及场合(如紧急性、设备约束条件、带宽等)都可能给系统的响应能力或可以被采集或显示的数据的量施加苛刻的限制。此外,该技术未能解决护理现场关于有益的药物信息的需要,因为这涉及个体的基因组信息。

因此,即使本领域已知许多方法、系统以及设备来提供组学数据并允许用户与其交互,但这样的设备通常并不适合于移动/床边应用。因而,对于允许在由硬件和/或使用场合施加的设备约束条件内演示组学数据和进行交互的、安全的移动基因组浏览设备存在极大的需求。



技术实现要素:

本发明的主题在于各种设备、系统以及方法,其中具有有限容量的移动设备可以被配置成以安全的方式提供基因组信息,同时响应请求或查询而向用户快速地提供数据,尤其在现场护理事件中。

本发明主题的一个方面包括安全基因组浏览设备,该设备包括至少一个处理器、显示器、通信接口以及存储器。存储器(如Flash、RAM、SSD等)被配置成存储指明设备限制的一个或多个基因组浏览约束条件。此外,存储器被分区成一个或多个安全工作区,这些工作区可以与存储器的其它部分或未授权的处理器线程隔离并存储私人基因组数据。通信接口被配置成通过网络(如互联网、LAN、蜂窝网等)确立到达远程基因组web服务器的一个或多个安全通信信道,其中安全工作区表示安全通道的一个端点。例如,安全通道可以包括VPN连接、SSL会话或其它类型的安全通信信道。

基因组浏览设备还包括在处理器上可执行的基因组浏览器模块,该模块负责将基因组数据再现在显示器上,同时要顾及(respecting)设备的约束条件。基因组浏览器模块被配置成经由安全通道针对与基因组的一个或多个序列相关的基因组数据(如目标个体的基因组、序列、基因、变异、突变、插入、缺失等)查询远程基因组web服务器。响应时,浏览器模块接收包括与基因组序列相关的药物相互作用信息在内的基因组数据。所接收到的基因组数据以基因组web服务器所期望的、预期的浏览器界面格式(如webapp、HTML5等)被接收。基因组浏览器模块使基因组数据被存储在安全工作区中。基因组浏览器模块还构建从预期的浏览器界面格式缩放(scaled)的基因组浏览器界面定义,可能地使HTML5代码或webapp转化成一个或多个脚本(如QML、Javascript等)。基因组浏览器界面定义被构建成要顾及设备的浏览限制,同时还提供原生(native)设备控制。基因组浏览器模块还基于查询的主题和药物相互作用信息从基因组数据识别出相关基因组数据。最后,基因组浏览器模块根据基因组浏览器界面定义将相关基因组数据和有关药物相互作用信息再现在显示器上的基因组浏览器界面中,由此顾及安全约束条件以及遵守设备约束条件。

从下面的优选实施方案的详细描述以及附图,本发明主题的各种目的、特征、方面以及优势将变得更明显。

附图说明

图1是示例性安全基因组浏览设备的示意性概括图。

图2阐释了显示药物相互作用数据的安全基因组浏览设备的示例性屏幕截图。

图3阐释了在基因组浏览器界面中显示基因组信息的概括界面的示例性屏幕截图。

图4A阐释了呈现在基因组浏览器界面上的全基因组序列的示例性屏幕截图。

图4B阐释了可以与图4A中的全基因组序列信息交互的原生设备控制的示例性屏幕截图。

图4C阐释了可以与图4A中的全基因组序列信息交互的原生设备控制的可选择的集合的示例性屏幕截图。

图5A阐释了显示合作界面和分析下钻(drill down)界面的基因组浏览器界面的示例性屏幕截图。

图5B阐释了与图5A中的信息交互的控制的示例性屏幕截图。

具体实施方式

发明人发现设备、系统以及方法可以被实施以允许在护理现场的用户经由具有有限容量的移动设备来以安全的方式与组学信息交互,这基于已知的浏览设备约束条件对设备或显示器的信息的缩放和传送进行了优化。所设想的移动设备通常将被配置为移动的或可穿戴的基因组浏览设备,该设备能够提供视觉或听觉反馈并访问理想情况下在安全环境中的网络。所设想的移动设备还可以包括组学分析引擎,该分析引擎与计算机可读存储器偶联,且被配置成(1)根据安全协议获得至少一个组学对象(如基因组学数据、RNA组学数据、蛋白组学数据、外显子组学数据),(2)通过将组学分析规则集合应用于至少一个组学对象来产生至少一种推荐以及(3)根据该推荐通过界面发起动作。

例如,合适的设备包括手机、平板电脑、平板手机、智能电话、智能眼镜、智能手表、前臂显示设备、个人区域网络设备、带仪器的衣服、游戏设备、医疗设备或医疗器械、笔记本电脑或其它类型的便携式设备。所设想的移动设备通过一个或多个用户界面提供一些形式的用户反馈。移动设备上的示例性界面可以包括设备屏幕、真实世界叠加层(增强现实、投射现实等)、文本-语音转换、预先录制的音频、虚拟视网膜显示、触觉界面(如振动、盲文、3D打印机等)、自动语音识别界面、触敏显示器或其它类型的界面。因此,设备约束条件将至少部分由一个或多个对这样的设备真实的或原生的特征来标示。例如,典型的基因组浏览设备约束条件将是有限的RAM空间(如等于或小于4GB)、有限的数据存储容量(如等于或小于64GB)、有限的处理能力(如单核处理器)、有限的数据传输速度(如使用蓝牙或WiFi)、有限的显示面积和/或分辨率等。应理解,由于设备相对于更大的计算机系统(如台式电脑、工作站、web服务器等)的物理尺寸,因而基因组浏览设备的限制将被会被施加。

应注意到,涉及计算机的任何表述应该被理解为包括计算设备的任何合适的组合,计算设备包括服务器、接口、系统、数据库、代理、同位体(peer)、引擎、控制器或单独操作或集中操作的其它类型的计算设备。应理解,计算设备包括处理器,该处理器被配置成执行存储在有形的、永久性的计算机可读存储介质(如硬驱、固态驱动器、RAM、flash、ROM等)上的软件指令。软件指令配置计算设备以提供正如下面关于所公开的装置所讨论的作用、职责或其它功能。此外,所公开的技术可以具体体现为包括永久性计算机可读介质的计算机程序产品,该计算机可读介质存储使处理器执行所公开的与基于计算机的算法、过程、方法或其它指令的执行相关的步骤的软件指令。在特别感兴趣的实施方案中,各种服务器、系统、数据库或接口使用可能基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知的财务交易协议或其它电子信息交换方法的标准协议或算法来交换数据。设备中的数据交换可以通过下述网络进行:分组交换网络、互联网、LAN、WAN、VPN或其它类型的分组交换网络;电路交换网络;蜂窝交换网络;或其它类型的网络。

图1示出了可以再现用于护理现场的利益相关者(例如,患者、医生、肿瘤学家等)消费的基因组数据的示例性安全基因组浏览设备120的概括图。在所显示的实施例中,安全基因组浏览设备120包括通过网络115从基因组web服务器110A至110N(统称为基因组web服务器110)请求基因组数据的智能电话(如等)。应理解,图1中示出的生态系统概述了一种安全环境,私人基因组数据和药物相互作用可以通过该安全环境被交换、存储、分析、再现或者以其它方式被管理。出于说明的原因,将从护理现场的肿瘤学家的手中的黑莓设备(如Z30、Z10、Q10、P’9982、PlayBook等)的角度示出本发明的主题。

在所示出的生态系统中,能够通过注册服务器112来管理设备和服务。例如,注册服务器112可以包括在注册的企业级应用与移动设备之间协调通信的黑莓企业服务器(BES:BlackBerry Enterprise ServerTM)。安全基因组浏览设备120(可能是黑莓PlayBook)向注册服务器112注册,以便将其自身识别为一个或多个数字web服务中的消费者。在图示的情况下,服务可包括通过(也已经在注册服务器112上注册了服务的)基因组web服务器110提供的web服务。因而,注册服务器112能够验证生态系统中的各种设备和服务,以确保各元件被授权与其它元件交换数据或消费注册的服务。例如,考虑到临床医生开始在急诊室移动的情况。当临床医生进入急诊室时,临床医生的设备可以基于场合的位置信息向注册服务器112注册并搜索用于访问基因组web服务器110上的患者的基因组数据的授权。经由基因组web服务器110访问患者的基因组数据允许临床医生确定哪种药物可能会与患者的基因组(如通路表达、RNA消息等)存在有益的或有害的药物相互作用。

基因组web服务器110包括被配置成利用一个或多个数字协议(如HTTP、HTTPS、SSL、SSH、FTP、SFTP、TCP/IP、UDP/IP、SMTP、SMS、MMS等)通过网络115来提供数字基因组数据的web服务器。一般地,基因组web服务器110被配置成通过以期望的浏览器界面格式(可能是HTML5、再现语言或其它webapp格式(如Javascript、CSS、AJAX等))经由网络115传递基因组数据,从而响应基于网络的请求。示例性的服务器包括如由基因组web服务器110A表示的基于BAM格式、SAM格式、GAR格式或者甚至BAMBAM格式提供基因组数据的web服务器。BAMBAM服务器可以通过适当地配置在均为Sanborn等人的美国专利申请公开2012/0059670(2011年5月25日提交)和2012/0066001(2011年11月18日提交)且名称为“BAMBAM:Parallel ComparativeAnalysis ofHigh-Throughput Sequencing Data”)中说明的技术而构成。能够被适配成用作基因组web服务器的基因组数据分析技术中的另一示例,该示例包括如通过基因组web服务器110N表示的、在均为Vaske等人的国际专利申请公开WO2011/139345(2011年4月29日提交)和WO2013/062505(2011年10月31日提交)且名称为“Pathway RecognitionAlgorithm Using Data Integration of Genomic Models(PARADIGM)”中说明的技术。能够被适配成提供基因组数据服务的基因组数据管理技术的另一示例,该示例包括在2009年11月6日提交的Singh等人的名称为“System and Method for Analyzing Genome Data”的美国专利申请公开2010/0161607中说明的技术。

网络115包括供生态系统的设备交换数字数据的数字通信基础结构。在一些实施方式中,网络115可以包括各设备通过补充通信接口140(例如,蓝牙、802.11、WiMAX、WiGIG、蜂窝电话、无线USB等)利用一个或多个无线协议来通信的无线网络。考虑到临床医生操作黑莓PlayBook设备作为安全基因组浏览设备120的医院环境的示例,对于布置在医院内的基因组web服务器110来说是本地的。黑莓设备能够利用802.11协议(例如,802.11n、802.11a、802.11b、802.11g、802.11ac等)与网络115通信。在临床医生远离医院超过本地连接的范围的其它场合下,可以将黑莓设备配置成通过蜂窝网络(例如,LTE、GSM、EDGE等)交换数据。尽管归因于线路的物理限制而不太理想,但是在不需要移动性的情形下,网络115还可以包括有线网络,例如以太网、USB等。

安全基因组浏览设备120包括计算设备,计算设备具有配合在一起以实现下述作用或职责的多个组成部件。安全基因组浏览设备120包括处理器(例如,Marvell等)、显示器160、存储器130、通信接口140和能够根据存储在存储器130中的软件指令在处理器上执行的基因组浏览器模块150。能够被适当地配置成作为公开的浏览器设备运行的示例性设备包括移动电话、智能电话、机器人助理、平板电脑、平板手机、医疗器械或其它设备。存储器130包括对数字数据的永久存储的支持并且可以包括RAM、FLASH、固态驱动器、SD卡、HDD或其它类型的存储设备。尽管未示出,但安全基因组浏览设备120被认为包括支持底层设备基础结构(例如,线程、文件访问、设备驱动器等)的操作系统。例如,黑莓设备可以被配置成具有内核。其它示例性的操作系统包括Linux、Android或被配置成在移动设备上运行的其它操作系统。

存储器130被配置成或编程为在安全工作区133内存储基因组浏览约束条件170和存储私人基因组数据135。存储器130被分区或否则分段成一个或多个安全工作区133,基因组浏览器模块150在再现基因组数据135的各部分时在一个或多个安全工作区133内运行数据,同时也确保了个人的基因组数据保持保密。在一些实施方式中,存储器130可以包括多个安全工作区133,每个安全工作区133均与其它安全工作区133隔离。例如,肿瘤学家可以请求访问每位患者的基因组数据135在指派的安全工作区133中彼此单独存储的多位患者的私人基因组数据。因而,每位患者的数据能够与其他患者的数据保持隔离和分离,从而防止了因肿瘤学家的疏忽行为而导致的意外公开。

可以通过一种或更多种技术来建立安全工作区133。在一些实施方式中,设备的操作系统能够通过分配连续的存储器的扇区和对存储在安全工作区133内的数据加密来建立安全工作区133。可选择地,不加密安全工作区133,而是存储按照加密格式(也许基于与基因组web服务器110的秘钥交换)的基因组数据135。例如,基因组浏览器模块150可以提供允许基因组浏览器模块150解密安全工作区133或基因组数据135以便操作数据的患者秘钥或令牌。在其它实施方式中,安全工作区133可以包括专用于在基因组浏览设备120上运行的实体化虚拟机的存储器的分区。更进一步,鉴于安全基因组浏览设备120寻求秘密地保持患者数据,安全工作区133可以被配置成或编程为遵守一个或多个安全标准(例如,FIPS 140-2)。回到黑莓示例,QNX操作系统(例如,QNX内核)能够建立供多核处理器使用的一个或多个安全分区。甚至进一步,安全分区可以被实体化以供基于作为在飞加密分区(fly encryptedpartition)上生成的开源实用工具程序的、诸如VeraCrypt(参见URLveracrypt.codeplex.com)或CipherShed(参见URL www.ciphershed.org)的工具使用。在这种情况下,能够相对于一位或多位患者的数据锁住基因组浏览器模块150的执行。安全分区还可以按照各种访问级别嵌入。例如,安全分区可以具有被构造成允许技术人员、肿瘤学家和患者访问的基础级的加密。分区可以包括附加的安全容器,该安全容器基于第二秘钥或被配置成限制仅供医生或患者访问的算法的类型来加密。甚至进一步,安全容器还可以包括仅能由患者访问的另一安全容器。将可能更敏感地考虑存储在各连续容器中的数据。

可选择地或另外地,安全工作区133还可以被配置成作为存储表示组学数据集合的至少一部分的组学对象(例如,蛋白组学数据、全基因组序列数据、RNA组学数据、外显子组表达等)的组学数据存储装置,其中组学对象可以是实际序列或其一部分,或者肿瘤和正常的核酸序列之间的不同的对象、或者基准核酸与肿瘤和/或正常核酸之间的不同的对象等。在其它设想的设备中,组学分析引擎(未示出)与安全的计算机可读存储器偶联并且被配置成(a)根据安全协议获得至少一个组学对象(如表示全基因组序列信息、外显子组序列信息、转录组序列信息和/或蛋白组信息),(b)通过将组学分析规则集合应用于至少一个组学对象来产生推荐;以及(c)根据该推荐通过界面(通常通过基因组浏览器界面)来发起动作。

存储器130还被配置或编程为存储基因组浏览约束条件170。基因组浏览约束条件170包括指示与安全基因组浏览设备120相关联的限制的数据元素。鉴于安全基因组浏览设备120相对于全桌面计算机、工作站或服务器具有受限的特征,因此还能够相当地限制安全基因组浏览设备120的浏览基因组数据的能力。基因组浏览器约束条件170可以包括能够影响浏览体验的约束条件宽谱。应当注意,基因组web服务器110不一定需要访问基因组浏览约束条件170。相反,在更感兴趣的实施方式中,安全基因组浏览设备120能够对基因组浏览约束条件170产生影响以产生利益相关者可接受的体验,同时安全基因组浏览设备120在以能够被认为对于web服务器110是清晰的方式浏览基因组数据135。这种方法被认为是有利的,这是因为这种途径允许各安全基因组浏览设备120单独地处理其自身的约束条件,而无需修改提供至常规浏览器的基因组web服务器110或webapp信息web服务器110。由于领域内的新设备(如新电话、智能手表等)变得更普遍,因此这种途径是尤其重要的。

基因组浏览约束条件170可以包括反映设备的物理约束条件的浏览设备约束条件。物理约束条件的一个示例可以包括指示基因组数据135能够获得的存储器容量(可能是安全分区的大小)的限制的存储器约束条件。存储器约束条件可以包括物理存储器的总容量、虚拟容量、流分配容量、访问延迟、安全级别(如FIPS 140-2级别1至4等)、安全分区或容器的容量、最大可分配容量或其它存储器约束条件。设备约束条件的另一示例包括计算约束条件。计算约束条件可以包括处理器中的核的数量、可使用的处理能力的量(如MIPS、百分率、时间片、延迟预算等)、存在或缺少加密支持(如硬件支持、软件支持等)、计算成本(如功率消耗等)、GPU或图形再现带宽、能够获得的线程的数量或其它计算约束条件。另一种类型的设备约束条件可以包括能够影响利益相关者访问基因组数据135的体验的网络约束条件。可能地,可利用的网络带宽可以限制可以被访问或可以影响浏览请求延迟的基因组数据135的量。示例性的网络约束条件可以包括延迟、数据计划成本、带宽、ping时间、协议支持或其它与网络相关的约束条件。仍另外地,设备约束条件还可以包括指示可能与显示器160相关的具体问题的显示约束条件。例如,显示约束条件可以包括显示器的尺寸、高宽比、刷新率、输入限制(如,触摸灵敏度等)、像素密度、维度支持(如2D、3D等)、支持的再现格式(如视频解码器、音频解码器等)或其它类型的显示约束条件。基因组浏览设备的基因组浏览约束条件可以被以多种方式确认,包括自动方式(如使用识别操作容量和/或部件的存在的软件),或基于基因组浏览设备的配置和容量的先验知识。

除设备相关的约束条件外,基因组浏览约束条件170可以包括非设备相关的约束条件,可以包括安全约束条件。安全约束条件可以与计算约束条件具有一些重叠,可以包括加密支持的标示。例如,安全约束条件可以包括在操作系统中存在加密芯片(如C29x)或存在加密支持例行程序的标示。因而,安全约束条件可能标示存在公钥算法(如RSA、Diffie-Hellman、ECC等)、AES、3DES、HMAC、SHA、FIPS 140-2或其它特征的局部支持。安全约束条件还可以包括访问级别约束条件、私密约束条件、安全强度约束条件或甚至匿名约束条件。额外的非设备相关约束条件可以包括用户约束条件,可能反映利益相关者或合作者的方面:患者、看管者、药剂师、研究人员、保险提供商、技术人员、医生、护士或与目标个体相关的其他个体。额外的基因组浏览约束条件170可以包括背景、位置、时间、地理围栏边界、用户偏好或其它类型的约束条件。

基因组数据135包括表示个体基因组的一个或多个方面的数字数据。基因组数据135可以包括多种基因信息或相关信息。在一些情形中,基因组数据135可以包括个体的全基因组序列。在这样的情形下,假设为未压缩的原始数据文件,则整个序列可能消耗几乎3GB的数据。根据用于存储基因组数据135的数据格式的不同,被基因组数据135消耗的存储器130的量可以显著变化。例如,具有50x读长的BAM文件格式可能要求约150GB(即3GB×50)。读取器被提醒:安全的基因组浏览设备120具有许多约束条件,包括相对于访问大容量硬驱的台式电脑或工作站设备的存储器约束条件。读取器被进一步提醒:安全基因组浏览设备120被配置成或编程为同时浏览多位患者的多个独立的基因组数据集合。因此,基因组数据135能以压缩格式被存储。虽然压缩格式节约空间,但其要求计算资源来解压缩数据以便访问数据,这又会因解压期间带来的延迟而影响用户体验。可选择地,基因组数据135可以是个体的基因组的子集合。例如,基因组数据135包括全基因组子集合,其可以包括相对于参考基因组的一个或多个差别,替换、缺失、插入、基因、癌症基因、错义、变异、突变、偏离、序列位置、等位基因分数、一个或多个SNP、一个或多个STR、染色体或与全基因组的子集合相关的其它信息。另外的示例性的基因组数据可以包括RNA测序信息(mRNA和miRNA),蛋白水平(定量的和预测的)、CHIP-Seq、甲基化信息(二硫化物或其它方法)以及有关染色体或蛋白质的空间配置的信息。

在另外设想的方面,本文中使用的基因组数据可以基于参考基因组模型或由其重构。在这样的系统中,与参考基因组模型偏离的患者具体可以被表达为不同对象(如按照BAMBAM格式)或不同对象的群。这样的模型系统将有利地允许在较高的缩放水平以符号形式来简单地图形阐释基因组变化/变异,而放大可以将序列要素的图示再现成实际的序列信息。虽然并未限制本发明的主题,这样的缩放功能可以基于来自SAM或BAM文件的个人信息,且实际的序列信息可以通过浏览器从序列数据库请求实际序列数据的位置来提供给基因组浏览器。

通信接口140被配置成或被编程为提供安全基因组浏览设备120与网络115之间的数据通信连通性,其中通信接口140包括根据由网络115支持的协议操作的、补充的物理接口。因而,通信接口140可以包括一个或多个有线接口(如以太网、USB、等)或无线接口(如蓝牙接口、802.11接口、蜂窝接口、无线USB接口、WiGIG接口、WiMAX接口等)。通信接口140还包括通信栈(如TCP/IP栈、USB栈等),该通信栈被配置成通过网络115与至少一个基因组web服务器110确立安全通道145。安全通道145可以呈不同的性质,这取决于安全基因组浏览设备120与基因组web服务器110之间的通信信道的期望的结构。考虑以下情形,其中肿瘤学家将黑莓PlayBook用作在将基因组web服务器110作为本地私人LAN上的主机的医务所内的安全基因组浏览设备120。在这样的情形中,通信接口140可以确立安全的协议连接作为安全通道145。例如,安全通道145可以包括构建在SSL、HTTPS或甚至SSH安全协议上的通信信道。在下述情形中,其中肿瘤学家或其他用户相对于以基因组web服务器110作为主机的私人网络是远程的,安全通道145可以包括VPN连接,使得从基因组web服务器110的角度,通信接口140基本上显示为安全的本地设备。另外,在下述情形中,其中基因组web服务器110作为基于云的服务(如PaaS、IaaS、SaaS等),安全通道145可以通过HTTPS连接偶联由基因组web服务器110提供的web服务。安全通道145的又一个示例可以包括通过匿名协议(如TOR等)构建的通道,这可以进一步保证个体访问基因组数据135的隐私,同时还顾及了授权。

图1显示的实施例将通信接口140阐释为确立一个安全通道145,其中安全工作区133表示安全通道145的一个端点。例如,安全通道145的所述端点可以包括使用安全工作区133作为其本地存储器的虚拟机(如Xen等)的例示。当经由安全通道145与基因组web服务器110交换数据时,虚拟机可以将基因组数据135存储在安全工作区133内,使用安全工作区133用于通信缓冲器,或以其它方式在浏览期间管理安全工作区133。应进一步理解,超过一个安全通道145可以被确立;可能地,一个安全通道用于专属于多位个体或患者中的一位的每一个安全工作区133。此方法被认为是有优势的,原因是该方法允许安全基因组浏览设备120使每一个个体的基因组信息与可能存在于设备上的其它信息隔离。更具体地说,每一个安全通道145不仅可以将其各自的基因组数据135存储在不同的、独立的安全工作区133内,而且还可以使用通信缓冲器的独特的或不同的集合,从而不会存在经由共享的缓冲器从一个通信信道到另一个通信信道的基因组数据“泄漏”或缓存溢出的风险。应理解,每一个虚拟机甚至可以作为其各自的通信栈的主机,这些通信栈独立于且隔离于其它虚拟机,如果每一个虚拟机专属于具体的患者时尤其如此。

另外地或可选择地,基因组数据可以直接从本地或远程的数据中心流出用于主动分析或存储目的。可以被影响的用于流出或存储的技术在WO/2013/086355“Distributed System Providing Dynamic Indexing and Visualization of Genomic Data”中有所讨论。基因组交换可以安全地发生在身份验证后的设备之间,无需中间服务器(对等交换)。传输基因组信息的其它合适的技术在U.S.14/541068“System And Methods For Transmission And Pre-Processing Of Sequence Data”中有所讨论。

安全基因组浏览设备120还包括基因组浏览器模块150,其被配置成或编程为执行在安全基因组浏览设备120的处理器或核上。在一些实施方案中,与基因组浏览器模块150有关的软件指令可以被存储在安全工作区133中,以提供关于浏览基因组数据135的进一步的隔离或安全。可以被合适地改动以结合本文描述的特征的基因组浏览器的一个示例包括UCSC基因组浏览器(参见URL genome.ucsc.edu/index.html)。可以贡献于基因组浏览器模块150的额外的技术包括由Five3Genomics(参见URL five3genomic.com)或Nantomics(参见URLnantomics.com)提供的那些技术。

基因组浏览器模块150具有与允许安全基因组浏览设备120的用户在设备的约束条件内以安全且保密的方式访问或浏览基因组数据135相关的许多作用或职责。基因组浏览器模块150被配置成或编程为经由安全通道145向基因组web服务器110中的一个或多个提交查询153来寻找与靶向基因组序列中的一个或多个有关的基因组数据135。查询153包括与靶向基因组的方面有关的信息。在基本水平,查询153可以仅包括标示期望的全基因组序列的个体患者的标识符(如患者姓名、SSN等)。然而,查询153可以包括涉及靶向基因组的更复杂的信息。在一些实施方案中,查询153可以包括封装基因组数据的请求连同请求属性的、序列化的数据结构(如XML、JSON、YAML等)。例如,请求可以包括患者标识符、用户标识符,基因组浏览约束条件170、基因名称、序列位置、序列长度、特异性序列串、蛋白质、DNA序列、RNA序列、途径信息、药物信息或可以被基因组web服务器110中的一个或多个消耗的其它特性以便产生结果集合。查询153可以基于用户输入(如经由口头说出、经由触摸屏等)、患者的面部识别或通过基于背景数据的自动产生(如场合、时间、周围收集的数据、人等)被产生。

基因组浏览器模块150被进一步配置成或编程为经由安全通道145接收基因组数据135。基因组数据135以响应的基因组web服务器110的期望的浏览器界面格式(如准备的webapp等)被接收。为了清楚,web服务器110在接收设备完全能够采集基因组数据135的假设下做出响应。例如,如果查询153以基因组web服务器110A为目标,基因组数据135可以包括BAM格式的基因组序列信息,可能地封装在webapp语言内。基因组数据135可按相同的格式存储,或可以在准备时被剥夺格式化以便再现在本地的显示器160上。应理解,基因组web服务器110不一定要求调整基因组数据135的格式化。相反,浏览设备上的基因组浏览器模块150可以被配置成容纳来自基因组web服务器110的多个webapp格式,这随后可以被转化并集成在一起供演示。因而,基因组数据135可以遵守由基因组web服务器110提供的演示格式。示例性的演示格式包括HTML5、Javascript、QML、AJAX、Flash、Silverlight、脚本语言或可以在浏览器环境中执行的其它格式。此外,基因组web服务器110提供的演示格式并不一定表示基因组浏览器模块150使用的再现格式。

在更令人感兴趣的实施方案中,基因组数据135还包括与查询序列相关的药物相互作用信息137的一个或多个部分。例如,药物相互作用信息137可以包括与基因组数据135的成药基因,或更具体地说是成药基因中的变异交互的药物的清单。药物相互作用信息137可以包括大量与药物相关的信息。示例性的药物信息可以包括多种药物、相互作用类型、名称、价格、来源、经销商、与查询序列不相关的其它相互作用、已知的药物研究、目前的药物研究、药物响应研究、有关纵向研究或其它药物信息。

鉴于安全基因组浏览设备120的受约束的容量,基因组浏览器模块150不能够呈现完全呈基因组web服务器110期望的webapp格式的基因组数据135。因此,基因组浏览器模块150仍进一步被配置成或编程为构建或以其它方式举例说明根据一个或多个基因组浏览约束条件170从期望的浏览器界面格式缩放的基因组浏览器界面定义155。例如,基因组数据135可以包括根据CSS定义呈现的BAM格式且包括可能不能够被呈现在显示器160上的许多读长。响应时,基因组浏览器模块150可以缩小演示至用于经由Qt框架演示在显示器160上的QML命令的集合,其中QML命令转化或缩放演示信息以遵守基因组浏览约束条件170中的显示器约束条件。基因组浏览器界面定义155还可以包括与根据安全约束条件的过滤基因组数据135有关的规则,以优先化另外的查询153,以激活或去激活浏览命令或其它活动。因而,基因组浏览器模块150可以被认为是从基因组web服务器110的webapp格式到原生设备控制内的靶向基因组浏览器界面定义155来缩放演示基因组数据135。基因组浏览器界面定义155可以实时举例说明,可能地使用接口脚本文件(如Lua、Python、Perl、Ruby等)、QML、Javascript或其它接口定义语言。应理解,基因组浏览器界面定义155可以包括实时构建或举例说明的新生(de novo)界面,可能地,其中在接收基因组数据135之前不存在,且其中浏览器界面定义155根据在基于设备的安全或物理约束条件定义的标准下操作的规则或程序集合来产生。

基因组浏览器模块150还被配置成或编程为根据与查询153和药物相互作用信息137有关的基因组序列从基因组数据135识别或确认出相关基因组数据139。相关基因组数据139表示能够根据基因组浏览器界面定义155被显示的、同时受到基因组浏览约束条件170限制的且同时试图满足查询153的目标信息。虽然被认为是已过滤的数据集合或着重于用户的表观需求的缩放的数据集合,相关基因组数据139还可以呈许多不同的形式。与基因组信息本身有关的相关基因组数据139的示例包括替换、缺失、插入、基因、癌症基因、错义、变异、突变、偏离、序列位置、等位基因分数、SNP数据、STR数据、全基因组、染色体、基因组的至少一部分的视觉表示、或与感兴趣的基因组直接相关的其它数据。另外,相关基因组数据139可以包括关于基因组数据的性质的、额外的信息或元数据。例如,相关基因组数据139可以包括组织样品信息(如正常组织样品、肿瘤组织样品、参考组织样品等)、与药物相互作用信息137有关的体细胞突变、与药物相互作用信息137有关的拷贝数的偏离、与药物相互作用信息137有关的成药基因(如基因、序列、变异等)或其它相关的元数据。另外,相关基因组数据139还可以包括与研究有关的信息或与基因组数据135有关的活动研究。例如,相关基因组数据139可以包括以下链接:与基因或突变有关的研究、目前正在进行的研究、接受的候选者或参与者的研究、药物试验或其它类型的研究。当肿瘤学家可能遇到生或死的情形,而他们的患者可以受益于最前沿的调查研究或研究时,上述信息被认为是有优势的。此外,患者可以是这样的研究的候选者。

应进一步理解,根据类似VCF的格式(变异识别格式)或类似MAF的格式(突变注释格式)的变异识别格式的水平(不同于参考基因组),相关基因组数据139和/或基因组数据135能以各种格式中的一种或多种被存储。还应理解,基因组数据可以被分配遍及多个当地或远程的设备以及至少部分被本地存储于移动设备,这可能是根据文件系统。这些文件可以被参考基因组的本地拷贝增强,允许按需重构整个基因组。在这样的实施方案中,本地拷贝可以是完整的(假设有足够的存储器),或可以表示数据的分形表示以降低存储器要求。因而,数据存储可以存储完整的基因组数据集合的至少一部分。根据设备的网络带宽的不同,感兴趣的区域或整个基因组可按具有额外的保真度的读长水平被存储。这些区域能以SAM或BAM文件格式被存储,且通过分级读长品质分数(binning read quality score)或使用品质度量(quality metrics)预先过滤来使用基于参考的压缩方案被另外压缩或使用lossy压缩方案。数据可以使用诸如公钥/私钥加密或同态加密被加密。

基因组浏览器模块150被进一步配置成或编程为根据基因组浏览器界面定义155将基因组浏览器界面中的相关基因组数据139和有关的药物相互作用信息137再现到显示器160上。例如,相关基因组数据139可以包括涉及一种或多种癌症基因的信息(如TRIO、CASP8、BMPR2等),该信息还包括染色体位置。信息可以基于界面被汇总并呈现在显示器160上,所述界面基于QML脚本再现并且被生成以容纳再现的相关基因组数据139并顾及基因组浏览约束条件170。此外,显示器可以被分区成框架、窗口或其它分区以提供要为多位患者呈现的浏览器界面。再现的相关基因组数据可以包括被减少或分析的数据,其可能是基于突变分析或细胞遗传学分析。再现的数据还可以包括至少一部分基因组的基因组分析的一种或多种图示。

应理解,再现在显示器160上的基因组信息还可以包括推荐的基因组数据合作者。此方法允许肿瘤学家或临床医生依照授权或身份验证与具有类似的安全基因组浏览器设备120的其它设备交互或共享相关基因组数据139。在这样的情形中,合作者的设备可以与基因组浏览器设备120同步,从而使得利益相关者可以在相同的状态下同时查看数据。当一个合作者对相关基因组数据139操作时,其他合作者将在他们自己的显示器上观察结果。设备可以经由注册服务器112被同步,或若其中一个设备(如共享设备等)作为母机,而其它作为客户端。如果期望的话,这样的通信能以对等方式来进行。根据合作者的性质的不同,同样的信息可以基于用户约束条件被不同地再现。例如,肿瘤学家可能看到从肿瘤学家的角度呈现的相关基因组数据139(如癌症基因、药物的识别等),而遗传学家可能更详细地看相关基因组数据139(如序列、基因、变异体等),其中根据每一位用户的技术配置文件再现相关基因组数据139。

图2提供了在黑莓设备上的基因组浏览器界面的屏幕截图,该屏幕截图阐释了相关基因组数据以及药物相互作用信息的精华。在所显示的实施例中,基因组浏览器识别个体基因组中的偏离。此外,基因组浏览器获得药物相互作用信息,该信息包括与组织样品中的拷贝数的一种或多种体细胞突变或偏离具有相互作用的药物(即87种药物)。基因组浏览器还呈现了列出具有各自相关信息的药物的表格。该表格例如包括药物名称、相互作用类型、可适用的变异或其它数据。应理解,此接口基于由一个或多个基因组web服务器根据其自己的webapp格式提供的基因组数据来使用Qt框架中的QML产生。此界面已经从基于由基因组web服务器提供的webapp演示格式正常产生的界面进行了缩小。特别应理解,此方法并不需要改变基因组web服务器或webapp定义上运行的现有应用,同时实现用户的原生设备体验。

下图提供从黑莓设备获得的额外的屏幕截图且阐释了额外的基因组浏览器界面。这些图验证了经由Javascript接口将由基因组web服务器服务的基因组webapp格式转换成目标黑莓设备的原生控制和菜单。

图3阐释了与癌症基因有关的基因组数据的演示以及显示了横跨22条常染色体的相对覆盖度。图4A提供了显示全基因组的概括的屏幕截图。图4B阐释了与图4A中的信息交互作用的原生控制的示例性集合。图4C阐释了与图4A中的信息交互作用的原生控制的可选择的示例性集合。图5A阐释了显示分析报告和共享容量的屏幕截图。图5B阐释了与图5A中的信息交互作用的原生控制的示例性集合。

所公开的方法产生令人感兴趣的基因组浏览容量。基因组浏览器模块能够与本地存储的基因组数据实时发生交互作用,因为用户进行浏览器请求(如放大、缩小、向前滚动、向后滚动、时移等),而不是要求浏览器从基因组web服务器进行额外的请求。因而,移动式安全基因组浏览器可以是非常交互式的,且从真正意义上说,可以作为其自身的基因组web服务器的代理。

此外,应注意,基因组浏览设备的应用可以包括支持推荐剂量、合适的治疗、副作用、毒性或其它医疗相关活动的用药指导(药物基因组学)。另一种示例包括样品血统检查以确定多个基因组是否来自同一个体,或检查以确定个体的关系(父子关系/母子关系检查)。又一个示例性的应用包括疾病测试以确定病变细胞或组织(癌症),或当前白细胞构型的变化。基因组数据可以被实时用于治疗和预后信息或疫苗开发。另外,可以进行病原体的外源序列检测以实时跟踪感染。从血液测试新获取的基因组信息可以用于检测循环肿瘤细胞,或使用来自红细胞和白细胞的RNA/DNA信息来确立个体的健康。此基因组信息可以部分或完全地驻留在移动设备上。因而,所设想的设备和系统可以基于集中了解的样本和分配至设备的模型来支持疾病的早期通知。

一种示例性的用途由(Eviti,Inc.,1800JFK Boulevard,Philadelphia,PA 19103)设想的生态系统,其提供了以证据为基础的、从诊断直至存活的癌症护理信息系统。在这样的设置中,所公开的移动设备允许健康护理在患者交互的每一个阶段提供实时访问基因组证据。移动设备可以联系具有以证据为基础的标准的基因组信息。此外,移动设备上的基因组信息可以与药物的功效、临床试验以及最终的协议相关。因而,实时基因组相关性可以在实际治疗或模拟试验期间在大量患者群体中获取。这样的快照可以是警报或其它通知的基础或触发器。通知随后可以基于相关的基因组信息被发送给利益相关者。从真正意义上说,移动设备是一种渠道,基因组信息通过该渠道以增强以证据为基础的治疗。

可以影响所公开的移动设备的另一种生态系统包括基于(OncoPlex Diagnostics,9620Medical Center Drive,Rockville,MD 20850)测定和测试的生态系统。在这样的生态系统中,来自每一个分析阶段的信息可以被插进到全世界移动设备的组学数据集合中,从而使得健康护理提供商或其他利益相关者可以跟踪组织分析,不管其在地球上的位置。例如,在组织制备(如福尔马林固定的、石蜡包埋的(FFPE)等)期间,所得到的基因组信息能以允许远程移动设备确定整个全部分析或检查中的数据来源的方式与样品或患者信息结合。应理解,每一个利益相关者,从患者到研究人员,均很好地经由他们移动设备在任何地方获得了访问权以分析光谱,该光谱包括细胞获得、试样制备样品分析(如SRM量化、MRM量化等)、基因组表达谱或数据分析。正如之前提到的,基因组数据可以根据阶段信息进行标记(如元数据等),这给出了一实时分析流,该实时分析流可作为与基因组数据偶联的、单独的数据结构。

特别感兴趣的是,所公开的移动设备可以作为临床操作系统(cOSTM)中的智能代理,可能地基于(NantHealth,9920Jefferson Blvd,Culver City,CA90232)智能临床操作系统的出售物。能够访问或存储部分基因组数据集合的移动设备可以作为cOS生态系统内的输入设备或输出设备。例如,移动设备可以获得一个或多个“组学”对象,然后将它们提交回到cOS供存储、处理或传输至遍布世界的其他利益相关者实体。在这样的实施方案中,移动设备可以偶联测序设备以从cOS获取基因组数据。可选择地,移动设备可以包括测序设备,或其它类型的“组学”传感器,被配置成直接获取基因组数据。除了获取或输入基因组数据外,移动设备可以作为通过访问来自cOS基础结构的期望的基因组数据的cOS的输出设备。移动设备可以被配置成经由一种或多种技术呈现基因组数据,这些技术包括作为cOS的显示器、报告生成器、音频输出或其它类型的输出。

cOS内的移动设备可以基于一种或多种技术与cOS生态系统内的其它设备交互。在一些实施方案中,cOS中的每一台设备具有其自己的地址,从而使得所有设备可以通过网络彼此通信。示例性的地址包括URL、URI、IP地址(如IPv4、IPv6等)、MAC地址或其它类型的地址。在其它实施方案中,移动设备内的代理或模块可以具有其自己的网络地址,使得其可以被单独寻址。例如,临床医生的移动设备(可能是平板电脑),可以包括cOS生态系统内的基因组浏览器模块,从而使得具体患者的浏览器具有其自己的IPv6地址,即使移动设备具有不同的地址也是如此。在这样的实施方案中,移动设备可以作为癌症基因组浏览器,该浏览器源于云(如IaaS、PaaS、SaaS等),该云可以是设备屏幕上的从全基因组到下至单个碱基对的基因组数据。

在一些实施方案中,移动设备或甚至基因组数据本身可以基于基因组数据的内容在cOS内被寻址。因而,cOS能够分配或访问基因组数据,而不管设备位置或对应的移动设备的IP地址的变化。分配地址的一种可能的方法包括使用基因组测序信息或元数据(如患者ID、公钥等)作为输入以产生哈希(hash)值。该哈希值可以被认为是哈希空间内的地址。当cOS希望访问相应的数据时,cOS可以从具有带最接近目标哈希地址的哈希值的数据的、相连的移动设备请求数据。如果连接的设备缺少数据,那么可以进一步请求其它相连的设备,直至发现数据为止。此方法表示在移动设备可能具有不可靠的连通性的、对等环境中的尽力服务(best effort)请求数据。在其它实施方案中,cOS内的移动设备或其它设备可以对Apache Hadoop大规模数据处理和数据存储结构进行操作,其中移动设备可以是Hadoop分布式文件系统内的节点。

除了所公开的移动设备外,cOS具有许多类型的基础结构设备。所设想的cOS还可以具有操作在网络连接设备(如交换机、路由器、网关等)、高性能计算设备或其它设备上的代理或模块。cOS内的每一台设备可以具有与所公开的移动设备相同的地址空间内的地址,使得所有设备、模块或其它类型的代理能够无缝交换数据。例如,Infinera ATNTM传输网络设备可以包括能够由cOS操作(甚至是在移动设备的指导下)的数据平面。考虑到下述情形,其中分析人员的移动设备要求访问大量的基因组数据,可能地超过万亿字节(terabyte)的数据。移动设备可以配置层一个传输层(如InfineraATN的数据平面)以设置对数据存储装置的高的带宽连接,可能地存储靶向基因组数据集合或美国政府高速计算机网络(National Lambda Rail)上的HPC设施。移动设备随后可以访问并呈现靶向基因组数据集合,而不管设备的位置且具有低的延迟。

还应该理解,所公开的移动设备还用作癌症预防措施的基础。当患者整个生存期中或部分治疗中的患者组织数据被收集时,组织的基因组信息可以连同相应患者的基因组数据集合的其它方面被整合。在这样的实施方案中,早期细胞发育不良可以从一定时间内的许多组织样品(可能地从肺部痰液或分泌物)被纵向获取。这样的基因组信息可以在人口统计资料内或在好几代过程中被编辑。所有这样的基因组信息可以被再现在所公开的移动设备上,进一步给出确认极端界外值或低可能度的相关性,这可以是主要标记物或在癌症发生之前的很长时间标示出此类癌症的风险。

可能需要转移至基因组浏览设备的数据的量可能是非常大的。在一些实施方案中,基因组浏览器模块可以使用上下文信息(如位置、时间等)以触发预先缓存的基因组数据。例如,当肿瘤学家进入他们的医务室以开始一天的工作时,他们的移动设备可以被设置有他们当天将要查单的所有患者的基因组数据。设置数据的触发器可以基于医务室的设备位置和肿瘤学家的预约时间表。虽然数据可能驻留在肿瘤医生的设备上,但这些数据可能保持锁定,直至额外的上下文标准被满足。继续此示例,当肿瘤学家的设备接近患者的移动手机时,当肿瘤学家获取到患者的图像时,或者在与患者的来访有关的具体时间段期间,具体患者的基因组数据可以被解锁。

对本领域技术人员应该明显的是,除了已经描述的之外的许多更多的改变是可能的而并不偏离本文的本发明的构想。因此,除了在所附权利要求的范围内,本发明的主题并不受限制。此外,在解释说明书和权利要求时,所有的术语应该以与上下文一致的、尽可能宽泛的方式被解释。具体地,术语“包括(comprises)”和“包括(comprising)”应该被解释为以非唯一的方式涉及要素、部件或步骤,表示所涉及的要素、部件或步骤可以存在或利用或与未涉及表示的其他要素、部件或步骤结合。如果说明书和权利要求涉及选自包括A、B、C…以及N的组中的至少一者的情况下,那么该文字应被解释为仅要求该组中的一个要素,而不是A加上N或B加上N等。此外,本文描述的所有方法能以任何合适的顺序来执行,除非本文另做表示或另外通过上下文是明显矛盾的。任何或所有实施例的使用,或关于本文中的某些实施方案提供的示例性的语言(如“诸如”)仅仅预期是更好地阐明本发明且并不对本发明的范围施加限制。说明书中的语言不应该被解释为表示任何不要求保护的要素对实施本发明是重要的。本文公开的本发明的可选择的要素或实施方案的分组不应被解释为限制性的。每一个组的成员可以被单独地或与该组的其他成员或本文存在的其他要素组合地提及并要求保护。组中的一个或多个成员可以基于便利和/或可专利性的原因被包括在一个组内或从一个组删除。当发生任何这样的包括或删除时,说明书在本文被认为包括了已改动的组,因而满足了所附权利要求中使用的所有马库什组(Markush group)的书面描述。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1