用于保护和管理基因组及其它信息的系统和方法

文档序号:6497683阅读:159来源:国知局
用于保护和管理基因组及其它信息的系统和方法
【专利摘要】公开了用于对人类基因组和其他信息进行处理、处置和执行测试的可信的、隐私受保护的系统和方法。根据一些实施方案,公开了一种系统,其是用于基因和其他信息的可信存储和分析的基于云的系统。系统的一些实施方案可以包括或支持经认证和证明的数据源、经认证和证明的诊断测试以及对数据的基于策略的访问中的一些或全部。
【专利说明】用于保护和管理基因组及其它信息的系统和方法
[0001] 相关申请的交叉引用
[0002] 本申请要求2011年10月17日递交的申请号是61/548, 161以及2012年3月29 日递交的申请号是61/617, 593的临时申请的优先权的利益,上述申请的全部内容通过引 用合并于此。
[0003] 版权声明
[0004] 本专利文件的公开内容的一部分包含了受版权保护的材料。在专利文件或专利公 开出现在专利商标局专利文件或记录中时,版权所有者对任何人复制再现专利文献或专利 公开无异议,但是在其它情况下保留无论什么的全部版权。

【背景技术】
[0005] 基因测试正在从单核苷酸多形性,也即基因密码的孤立个体化学差的检测转移到 全基因组定序(WGS),这记录了基因序列中的每一个碱基对。目前,各公司正把重点放在创 造能够可承受地生成个体的全基因组序列的设备。预期在接下来的三年中,能够在不到一 天的时间内花费不到$500来对整个基因组进行定序的设备将投放市场。当今的主要行业 聚焦在于开发定序技术、生物化学以及第一阶段基因组数据处理(原始数据处理以及库撤 消统计处理)。


【发明内容】

[0006] 根据一些实施方案,描述了用于对人类基因组或其它数据执行可信计算的方法。 所描述的方法包括:接收一组基因组或其它数据以及设计成操作基因组或其它数据的可执 行诊断计算机程序;评估可执行诊断计算机程序的真实性;评估该组数据的至少部分的真 实性;以及当真实性评估令人满意时,对该组数据的至少部分执行计算机程序。根据一些实 施例,产生诊断结果,其可用于基于计算机程序的执行的医疗诊断。该方法还可以包括证明 结果的真实性。诊断计算机程序的真实性的评估可以包括:验证由接收到的诊断计算机程 序封包的数字签名。类似地,基因组或其它数据的真实性的评估可以包括:验证由数据封包 的数字签名。根据一些实施方案,该方法还包括:基于一个或多个隐私策略来保持与该组数 据相关联的隐私性。
[0007] 根据一些实施方案,描述了一种可信计算系统,其包括:安全存储系统,其配置为 存储一组数据和操作数据的计算机程序的至少部分;以及安全处理系统,其编程且配置为 评估计算机程序的真实性,以评估该组数据的至少部分的真实性,并且当真实性评估令人 满意时,对该组数据的至少部分运行计算机程序。
[0008] 根据一些实施方案,描述了一种可执行诊断计算机程序,其包括:诊断算法,其配 置为对数据集的至少部分执行,从而由其产生诊断结果(例如,可用于医疗诊断的结果); 以及数字签名,其配置为有助于证明可执行程序的真实性。根据一些实施方案,计算机程序 还能够封包有:描述了诊断算法、算法的预期用途以及一个或多个与算法相关联的警告的 元数据;期望产生有用的诊断结果的算法输入的技术描述;和/或描述来自诊断算法的期 望输出的各方面的信息。
[0009] 根据一些实施方案,描述了产生封包的基因组数据的方法,其包括:接收来自DNA 定序设备的基因组数据;对接收到的基因组数据进行加密;产生有利于基因组数据的后续 验证的数字签名;以及用加密的基因组数据封包所产生的数字签名。能够利用与DNA定序 设备相关联的私有密钥和/或与定序设施相关联的私有密钥来产生数字签名。
[0010] 根据一些实施方案,描述了操作一组或多组基因组数据的方法,其包括:安全地接 收一组或多组基因组数据;将许可信息与每组基因组数据相关联,所述许可信息已由基因 组数据的所有者规定;接收操作基因组数据的算法;接收对一组或多组接收到的基因组数 据运行算法的请求;证实所述请求;校验与一组基因组数据相关联的许可;以及如果所述 许可允许,则允许所述算法访问或使用该组基因组数据。
[0011] 如本文所使用的,术语"基因组数据"一般是指数据表达、表示或者从基因组或基 因组序列的全部或部分获得。该数据可以包括例如以诸如DNA、mRNA和蛋白质的化学结构 编码的信息以及诸如甲基化状况的相关调节信息。
[0012] 如本文所使用的,术语"基因组"是指机体的遗传信息。基因组以DNA或RNA编码, 并且可表示为mRNA或者从这些核酸序列得到的蛋白质序列。术语"基因组"可以包括基因 和非编码序列。当应用于具体机体时,术语"基因组"能够指来自正常细胞的基因组数据,包 括线粒体DNA,并且还指来自诸如肿瘤和微生物群落的其它机体的相关细胞的基因组数据。

【专利附图】

【附图说明】
[0013] 通过结合附图参考下面的详细说明,将易于理解发明工作主体,在附图中:
[0014] 图1A、1B和1C示出了从使用物理医疗设备的紧密耦合的基因测试到解耦的定序 和测试步骤的转变,其中测试步骤包括对原序列执行的一系列软件分析;
[0015] 图2是示出根据一些实施方案的示例性的基因云生态系统中涉及的可能的大量 保管者的图;
[0016] 图3是示出根据一些实施方案的确保基因云生态系统中处置链的完整性的各方 面的图;
[0017] 图4是示出根据一些实施方案的基因云系统中所包含的多个子系统的图;
[0018] 图5是示出根据一些实施方案的代表信任管理方法的图,其中根权限代表了信任 分级结构到多个功能专用的中间根的可操作职责;
[0019] 图6是示出根据一些实施方案的实施例设备制造商信任根的各方面的图;
[0020] 图7是示出根据一些实施方案的实施例实验室信任根的各方面的图;
[0021] 图8是示出根据一些实施方案的实施例执行环境信任根的各方面的图;
[0022] 图9是示出根据一些实施方案的实施例调节信任根的各方面的图;
[0023] 图10是示出根据一些实施方案的实施例测试提供商信任根的各方面的图;
[0024] 图11是示出根据一些实施方案的实施例隐私证明权限信任根的各方面的图;
[0025] 图12是示出根据一些实施方案的代表信任模型中的实施例证明的各方面的图;
[0026] 图13是显示出基因云系统的示例性实施方案中的基因信息生命循环中的一组实 施例阶段的图示;
[0027] 图14是显示出根据一些实施方案的数据对象之间的链接的实体关系图;
[0028] 图15显示出根据一些实施方案的自动产生的权限请求的模板的实施例;
[0029] 图16是示出根据一些实施方案的用于执行虚拟诊断测试(VDT)的过程中的动作 的流程图;
[0030] 图17显示出根据一些实施方案的虚拟诊断测试(VDT)数据结构的实施例;
[0031] 图18显示出根据一些实施方案的扩展元数据的实施例;
[0032] 图19显示出根据一些实施方案的虚拟诊断测试(VDT)算法规范的实施例;
[0033] 图20显示出根据一些实施方案的示例性的安全分析器中的部件的概览;
[0034] 图21是示出根据一些实施方案的数据被捕获、保护和/或提供给基因云的过程的 流程图;
[0035] 图22显示出根据一些实施方案的汇编基因组元数据封包的可能的格式的实施 例;
[0036] 图23显示出根据一些实施方案的分析器数据封包(ADP)格式的实施例;
[0037] 图24显示出根据一些实施方案的分析器环境中的密钥和基因云系统的摄取点处 的密钥之间的示例性关系;
[0038] 图25是显示出根据一些实施方案的分析器所生成的数据摄取中的示例性动作的 流程图;
[0039] 图26显示出用于保护和管理对数据的访问的示例性系统;以及
[0040] 图27显示出可用于发明工作主体的实践实施方案的系统的更具体的实施例。

【具体实施方式】
[0041] 下面提供发明工作主体的详细说明。虽然描述了多个实施方案,应当理解的是发 明工作主体不限于任何一个实施方案,而是包含了若干的可选方案、改进方案和等同方案。 另外,虽然为了提供对发明工作主体的全面理解而在下面的说明中阐述了若干具体细节, 但是能够在不具有这些细节中的一些或全部的情况下实施一些实施方案。而且,为了清晰 的目的,未对相关领域公知的一些技术材料进行详细说明,以便不必要地混淆发明工作主 体。
[0042] 提出了有利于基因组和/或其它信息的可信处置的系统和方法。将理解的是,这 些系统和方法是新颖的,同样其中采用的多个部件、系统和方法也是新颖的。
[0043] 基因组数据可能是当前可供使用的最个人可标识的健康数据。通过许多常规的医 疗测试,一旦取得样本并且对样本进行测试,样本被丢弃,不能再进行进一步测试。然而,通 过全基因组定序(WGS),你的"数据样本"能够无限地存在。随后在新基因被标识时能够对 数据执行测试,而无需额外的实验室工作。
[0044] 如果数据不能受到充分保护,则患者基本上同意当今已知的测试,并且也同意在 患者寿命期间可能发现的任何测试。呈现基因信息可具有深远的结果,列举几个例子:诸如 配偶选择/合意性;就业筛选/可雇性;以及造型/差别待遇。此外,呈现关于个体的基因 组的信息可能无意地呈现出关于基因上有关的家族成员诸如同胞、孩子和双胞胎的信息。
[0045] 图1A-1C示出了从使用物理医疗设备的紧密耦合的基因测试到解耦定序和测试 步骤的转变,其中测试步骤包括对原序列执行的一系列软件分析。此处,我们将这些分析模 块成为虚拟诊断测试或VDT。
[0046] 图1A示出了当前如何实施测试,其中测试和分析紧密耦合。利用诸如微阵列或 "基因芯片"112的基因组分析工具直接分析患者的样本110,随后产生了结果114。
[0047] 图1Β示出了通过定序器120分析患者的样本110,产生了序列输出122。序列122 随后能够立刻用于分析。然而,序列输出122还能够以计算机可读格式存储。如图1C所示, 根据一些实施方案,通过一个或多个VDT142在可信执行环境140中处理存储在文件130上 的序列以产生诊断结果150。注意的是,在图1Β和图1C中所示的过程中,在(利用定序器 120)执行定序时,诊断测试(诸如VDT142)甚至可能不存在。因此,根据一些实施方案,测 试和诊断装置都应当优选地且独立地被证明以安全且精确地执行其相应的任务,并且确保 两者之间的接口是先验已知且可信的。在新的测试被创建时,这些应当被正确地证明以使 它们能够被系统其它用户认证。
[0048] 示例件设计
[0049] 根据一些示例性实施方案,设计了解决与处置类似于基因数据的敏感信息相关联 的信任、隐私和/或安全问题的系统。在一些实施方案中,可以包括下列特征中的一些或全 部:
[0050] (1)基因组数据的隐私保护采集-在优选的实施方案中,甚至来自数据的起源,在 采集点,个体的隐私受到保护。设备将其数据以加密形式直接输出到服务。服务以不能被 实验室人员或过程的观察者容易地推断出的方式安全地且私密地将患者信息关联;
[0051] (2)数据是匿名的且总是受保护-在优选的实施方案中,在系统内,基因组数据以 加密形式存储,并且与将呈现其所属的个体的身份的信息解耦。根据许可来密切地防护对 链接信息的访问,优选地仅在为授权目的的安全环境中使用链接信息;
[0052] (3)分布式信任模型-期望的是确保生成诊断结果的端对端系统能够得到信任。 利用分布式信任模型,每个独立的一方能够负责他们所控制的过程的部分,并且医生和终 端用户能够信任,终端结果经汇编且由独立创建的、但是可信的组件执行;
[0053] (4)医疗保健用途的证明-在诸如基因学等快速发展的领域中,期望医生能够跟 踪每一个新的发现并且将研究转换成容易排序的诊断测试是不合理的。通过整理测试且安 全地关联描述和使用建议,这给予医生简单的规定测试的方法。此外,允许行业和管理组织 证明和担保联署测试给予医生这样的自信:他们定购的测试已经经过同级阅览且将产生医 疗相关的结果;
[0054] (5)虚拟实验室编程工具-基因组编程语音内的标准化功能使得研究者容易在易 用的标准化测试中整理他们的发现。诸如DIFF(返回两个基因组段之间的差)、IF/THEN语 句、布尔逻辑、模式识别、插入/删除检测的标准操作简化了商业化发现所需要的编程;
[0055] (6) IP的市场-标识特定的基因序列及其与表型和疾病的关系涉及到大量的资 本、资源和时间。本文所描述的系统和方法的一些实施方案提供了做出这些发现的那些人 能够被补偿的机制(如果他们这样选择)。
[0056] (7)用于协作的可信系统-在一些实施方案中,提供了用于创建和分布经整理的 搜索算法的标准手段,从而使发现能够容易地在研究者间共享。各种类型的测试能够容易 地链接在一起以形成在组织之间共享的可重用构建块,以实现免费或价值交换;和/或 [0057] (8)隐私设计-在一些实施方案中,提前对系统进行体系结构设计以保护其客户 的隐私。通过在开始时设计隐私保护,隐私分析和匿名分析能够彼此隔离,从而实现两种类 型的使用而不会造成任一方受损。
[0058] 示例件的某闵云牛杰系统
[0059] 根据一些实施方案,提供了用于基因和/或其他信息的可信存储和分析的系统。 该系统的实施方案有时在本文中称为"基因云"。在优选的实施方案中,基因云是一种以与 那些数据中由保管者指定的隐私和使用策略一致的方式提供基因组(和/或其他)数据的 可信任的长期存储和处理的系统。将理解的是,可以使用任何适合配置的服务器和存储媒 介,包括但不限于单个服务器或服务器群,或通过各种网络(例如诸如因特网、公共和/或 私有网络、和/或类似物)连接的多机种计算机系统的分布式集合。
[0060] 基因云的一些实施方案可以包括或支持下列中的一些或全部:(1)虚拟诊断测 试;(2)受保护的个人基因组数据;(3)经证实和认证的数据源;(4)经证实和认证的诊断 结果;(5)对规则管理的基因组数据的访问;(6)能够用于医疗诊断的患者拥有数据;(7) 患者授权对数据访问以进行研究和所要求隐私级别的能力;以及(8)患者授权对他/她的 基因组的具体测试以及指定谁可以访问结果的能力。
[0061] 图2是示出根据一些实施方案的基因云生态系统200中所涉及到的可能大量的保 管者的图。在基因云系统200中显示为可能的保管者的是认证机构201、研究者202、付款 人203、实验室204、客户205、医疗保健提供者206和工具提供商207。这些保管者中的每 一个都可以具有在其自身基因数据或者那些数据的管理和使用方面的特定的一组专有利 益和关心的事情。注意的是,在图2中使用了术语"客户"。然而,术语"客户"和"消费者" 在本说明书中通常可互换使用。图2所示的许多可能的保管者扮演了确保数据的安全性以 及处置链的完整性的角色,如图3所示。
[0062] 图3是示出根据一些实施方案的确保基因云生态系统中的处置链的完整性的各 方面的图。如图所示,可信结果209通过如下确保:借助实验室204,通过证明样本采集和处 理遵从了正确的程序;借助定序器制造商210,通过证明从既定样本获得正确的序列数据; 借助可信任的基因云环境200,通过证明诊断测试的执行是在受控的环境下且遵守规则的 情况下执行的;以及借助工具提供商207,通过证明测试得到了医疗有效的诊断。表1以更 示例性的细节描述了每个保管者如何会涉及到基因云生态系统的实施方案的操作中。

【权利要求】
1. 一种用于对人类基因组数据执行可信计算的方法,所述方法包括: 接收一组基因组数据和设计成操作基因组数据的计算机程序; 通过处理系统,评估所述计算机程序的真实性; 通过处理系统,评估所述一组基因组数据的至少部分的真实性; 通过处理系统,评估与所述基因组数据相关联的策略以判定是否允许所述计算机程序 操作所述基因组数据;以及 当真实性和策略评估令人满意时,对所述一组基因组数据的至少部分执行所述计算机 程序。
2. 如权利要求1所述的方法,其中所述计算机程序的以及所述一组基因组数据的所述 至少部分的真实性的评估以及与所述基因组数据相关联的策略的评估是自动实施的。
3. 如权利要求2所述的方法,其中所述自动实施的评估是通过可信医疗计算系统来实 施的。
4. 如权利要求1所述的方法,还包括:至少部分地基于所述计算机程序的执行来生成 可用于医疗诊断的诊断结果。
5. 如权利要求4所述的方法,还包括:至少部分地基于所述计算机程序的以及所述一 组基因组数据的所述至少部分的真实性的评估来证明所生成的诊断结果的真实性。
6. 如权利要求1所述的方法,其中所述计算机程序的真实性的评估包括:验证所接收 到的计算机程序所封包的至少一个数字签名。
7. 如权利要求1所述的方法,还包括:基于所接收到的计算机程序所封包的信息来判 定所述计算机程序的数据要求。
8. 如权利要求1所述的方法,其中所述一组基因组数据的所述至少部分的真实性的评 估包括:验证所接收到的一组基因组数据所封包的至少一个数字签名。
9. 如权利要求1所述的方法,还包括:检查所述一组基因组数据的数据格式化异常。
10. 如权利要求1所述的方法,还包括:基于一个或多个隐私策略来自动地维护与所述 一组基因组数据相关联的隐私。
11. 如权利要求1所述的方法,其中所述计算机程序包括可执行程序链。
12. 可信医疗计算系统,包括: 安全存储系统,其配置为存储一组基因组数据的至少部分以及计算机程序;以及 安全处理系统,其被编程且配置为评估所述计算机程序的真实性,评估所述一组基因 组数据的至少部分的真实性,以及评估所述计算机程序操作所述一组基因组数据的至少部 分的许可,并且当真实性评估和许可评估令人满意时,对所述一组基因组数据的至少部分 执行所述计算机程序。
13. 如权利要求12所述的系统,其中所述计算机程序的真实性的评估包括:验证所述 计算机程序所封包的至少一个数字签名。
14. 如权利要求12所述的系统,其中所述一组基因组数据的所述至少部分的真实性的 评估包括:验证所述一组基因组数据所封包的至少一个数字签名。
15. 如权利要求12所述的系统,其中所述安全处理系统进一步被编程且配置为至少部 分地基于所述计算机程序的执行来生成可用于医疗诊断的诊断结果。
16. 如权利要求15所述的系统,其中所述安全处理系统进一步被编程且配置为至少部 分地基于所述计算机程序的以及所述一组基因组数据的所述至少部分的真实性的评估来 证明所生成的诊断结果的真实性。
17. 生成封包的基因组数据的方法,包括: 接收来自DNA定序设备的基因组数据; 对接收到的基因组数据加密; 生成将有利于所述基因组数据的后续验证的数字签名; 将策略信息与所述基因组数据关联,所述策略信息配置为用于管理对所述基因组数据 的访问或使用;以及 用加密的基因组数据封包所述数字签名。
18. 如权利要求17所述的方法,其中所述数字签名是利用与所述DNA定序设备相关联 的私有密钥而生成的。
19. 如权利要求17所述的方法,其中DNA定序是通过定序设施实施的,并且所述数字签 名是利用与所述定序设施相关联的私有密钥而生成的。
20. 如权利要求17所述的方法,其中所述加密的基因组数据封包元数据,所述元数据 描述了用于生成所述基因组数据的样本的样本采集信息和样本源信息。
21. 执行可信计算的方法,所述方法包括: 接收来自第一实体的第一组数据; 接收来自第二实体的第二组数据; 从至少一个第三实体来接收计算机程序,所述计算机程序设计成操作包括所述第一组 数据的至少部分和所述第二组数据的至少部分的一组数据; 通过处理系统,评估所述计算机程序的真实性; 通过处理系统,评估所述第一组数据和所述第二组数据的至少部分的真实性; 通过处理系统,评估与所述第一组数据相关联的第一策略以判定是否允许所述计算机 程序操作所述第一组数据; 通过处理系统,评估与所述第二组数据相关联的第二策略以判定是否允许所述计算机 程序操作所述第二组数据;以及 当真实性和策略的评估令人满意时,对所述第一组数据的至少部分和所述第二组数据 的至少部分执行所述计算机程序以生成取决于所述第一组数据的所述至少部分和所述第 二组数据的所述至少部分的结果。
【文档编号】G06F21/10GK104054084SQ201280062102
【公开日】2014年9月17日 申请日期:2012年10月17日 优先权日:2011年10月17日
【发明者】W·克诺克斯·凯里, 戴维德·P·马赫尔, 迈克尔·G·马南特, 贾尔·尼尔森, 塔拉尔·G·沙穆恩 申请人:英特托拉斯技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1