分析基因组数据的架构的制作方法

文档序号:15307483发布日期:2018-08-31 21:14阅读:144来源:国知局

本发明的一个方面涉及用于分析基因组数据的架构,诸如核糖核酸(rna)或脱氧核糖核酸(dna)的短序列。



背景技术:

dna测序仪出现在20世纪70年代,目的是数字化生物体细胞的dna。这些测序仪特别允许在20世纪90年代对第一个人类基因组进行测序。当时,这种测序需要10多年的工作和大约10亿美元。最近,一项重大技术进步导致出现了新一代高通量测序仪(也称为新一代测序(ngs)),并且改变了细胞和分子生物学的格局。测序成本已经变得相当实惠,这些测序仪的生产能力急剧增加,只需几天即可完成全基因组的测序。

今天,这场技术革命彻底改变了生物学和医学。例如在癌症学中,鉴于寻找将用于诊断、预后、残留疾病的跟踪或对治疗的应答的分子标记,现在可以非常快速地对患者的癌细胞中包含的所有信息进行测序。然而,由于测序dna片段的大小,测序仪一直受到限制,并且仍然存在。样品的制备包括将其切成短dna链(仅有几百个核苷酸),以便测序仪能够在文本形式下快速生成数以亿计的短dna(或rna)序列。这些称为读取。这些读取完全覆盖了起始遗传物质(例如个体的基因组或转录组)。但是,他们生成的信息被切成了数以百万计完全混乱的读取的难题,其中一些包含测序或准备样品时产生的错误。换句话说,由ngss产生的序列是受限制的,并且不会导致可被简单利用的结果。

生物学家和临床医生面临着大量的数据(大数据),这些数据将被存储、分类、结构化和解释。然而,现今没有适于利用这些数据的工具提供给生物学家或者甚至临床医生。



技术实现要素:

在此上下文中,本发明旨在提供用于分析基因组数据的架构,使得能够有效地利用借助于高吞吐量测序仪获得的基因组数据。

为此,本发明的一个方面涉及用于分析基因组数据的架构,其包括:

-多个应用节点,每个应用节点包括:

计算系统,其包括至少一个计算节点,该计算系统被构建和布置为执行基因组计算,

人机接口,其被构建和布置为与计算系统通信,

用于访问知识库的接口,

-知识库,其被构建和布置为与多个应用节点通信,所述知识库包含基因组数据;以及

-多个私人空间,每个私人空间被构建和布置为:

包含由1至n个用户的已认证实体的计算系统执行的计算得到的结果和元数据,以及

只有已认证实体的用户可访问读取。

借助本发明,用户可以经由计算系统对包含在例如知识库中的基因组数据进行计算。所进行的计算结果可以存储在知识库中,并可供其他用户访问,其他用户可以例如通过比较它们与他们的结果来丰富这些结果。

因此,该架构形成了用于分析来自新型高通量测序技术(ngs)的数据的协同工作环境。这种协同工作环境能够对生物学和/或医学问题进行病理学或患者的精确的和解释的基因组分析,同时提供完全独立的对复杂结果的简化访问。

此外,应该指出的是,架构依赖于:

-多租户系统,因为多个用户可以使用单个计算系统的单个计算节点,以及

-多实例系统,因为用户可以使用计算系统的多个计算节点。

这种混合架构可以充分利用这两种系统,从而确保消耗计算资源最多的用户的保密性。

根据本发明的不同方面,用于分析基因组数据的架构也可以在下文中具有单独考虑或根据所有技术上可行的组合考虑的一个或多个特征。

在非限制性实施方式中,架构包括多个共享空间,每个共享空间被构建和布置为:

-包含由1至n个用户的已认证实体的计算系统执行的协同计算得到的结果和元数据,以及

-只有已认证实体的用户可访问读取,并从对所述空间的查阅权中受益。

根据非限制性实施方式,架构包括公共空间,所述公共空间可以被架构的已认证实体的所有用户访问。

在非限制性实施方式中,计算系统被构建和布置为对生物材料的短数字序列进行分类。

在非限制性实施方式中,计算系统被构建和布置为聚集相同类别的生物材料的短数字序列。

在非限制性实施方式中,计算系统被构建和布置为识别应答生物问题的生物标记序列。

在非限制性实施方式中,该架构包括多个资源,所述资源由以下系统形成,该系统:

-用于识别其处理的元素及实体,

-用于识别用户,

-用于识别与至少一个用户和一个实体相关联的计算,

-能够使进行的计算相关联,

-用于逻辑地收集与用户和实体相关联的计算的标识符,

-能够使一条元信息与来自知识库的数据相关联。

在非限制性实施方式中,知识库由数据库环形成。

在非限制性实施方式中,用于访问知识库的接口是apirest。

附图说明

根据以下给出的描述,本发明的其它特征和优点将变得更清楚明显,通过指示而非限制目的,参考附图1示意性地示出了根据本发明的一个方面的用于分析基因组数据的架构。

具体实施方式

图1示出了根据本发明的非限制性方面的用于分析基因组数据的架构100的示例性实施方式。

该架构100包括多个应用节点101。每个应用节点101包括计算系统102,其包括至少一个计算节点,计算系统102被构建和布置为执行基因组计算。

当计算系统102被用户请求用以执行需要大量资源的计算时,计算系统102可以执行多个计算节点。需要提醒的是,当为计算节点分配动作时,这实际上是由计算节点的微处理器完成的,通过记录在计算节点的存储器中的指令代码控制该微处理器。如果一个应用程序被分配了一个动作,这实际上是由存储器中的计算节点的微处理器完成的,从该存储器中加载了与该应用程序对应的指令代码。

为了执行这些基因组计算,计算系统102被构建和布置为加载使生物标记序列能够被组织和解释的计算生物学工具。换句话说,通过计算,它特别意味着组织和解释生物标记序列。可以由计算系统102加载的计算生物学工具可以例如由不同的软件类型形成,诸如软件crac、软件cractools或甚至软件套件crac和ct。

在非限制性实施方式中,计算系统102可以被构建和布置为对生物材料的短数字序列进行分类。为此,计算系统102可以例如实施称为crac的软件,该软件专门处理rna-seq序列并且使读取能够被分类。rna-seqs通过rnas的高通量测序获得。

在非限制性实施方式中,计算系统102被进一步构建和布置为聚集相同类别的生物材料的短数字序列。为此,计算系统102可以例如实施称为cractools的软件,该软件专门借助于软件crac对分类后的读数进行后处理,并且能够聚集相同类别的读数以鉴定生物标记序列。

在另一个非限制性实施方式中,计算系统102被进一步构建和布置为识别应答生物问题的生物标记序列。为此,计算系统102可以例如实施称为crac&ct的软件套件,其连接软件crac和cractools以便识别应答精确生物问题的生物标记序列。

此外,每个应用节点101包括人机接口103,其被构建和布置为与应用节点101的计算系统102通信。该人机接口103可以是saas型web应用的形式。该web应用程序使得用户能够与计算系统102交互,计算系统102能够组织和解释生物标记序列,而且还能够查阅和编辑知识库。

为了能够查阅和编辑知识库,架构100还包括用于访问知识库105的接口104,用于访问知识库105的接口104例如由apirest形成。

知识库105被构建和布置为借助于访问接口104与多个应用节点101通信。知识库105特别包含基因组数据。

此外,知识库105包括多个私人空间106,每个私人空间106被构建和布置为:

-包含由1至n个用户的已认证实体的计算系统102执行的计算得到的结果和元数据,以及

-只有已认证实体的用户可访问读取和写入。

因此,包括一个或多个用户的每个实体具有私人空间106,其中为了满足某些用户希望的保密性需求的目的,资源(即计算结果)对架构100的其他实体是隐藏的。因此其他实体的其他用户不可能查阅他们。

该私人空间106包含已认证实体的一个用户或多个用户的所有工作数据。为此,来自私人空间106的数据被用户的实体的加密密钥加密。因此,只有实体的用户可以解密知识库105中他们的私人空间106的内容。

知识库105还包括多个共享空间107,每个共享空间107被构建和布置为:

-包含由1至n个用户的已认证实体的计算系统102执行的协同计算得到的结果和元数据,以及

-只有已认证实体的用户可访问读取和写入,并从对所述空间的查阅权中受益。

因此,每个实体具有共享空间107,为了执行私人但合作的工作,可以邀请一个或多个其他实体的其他用户。共享空间107包含在一个或多个其他实体的若干用户之间的协同项目的范围内的所有公共数据,并因此允许属于不同实体但在同一项目上工作的用户之间的数据交换。

为了确保所存储的数据的安全性,来自共享空间107的数据被存储在知识库105中被加密。因此,存储器只能从已认证到该共享空间107的计算系统102访问。

在一个实施方式中,用户经由使用的人机接口将他/她自己的数据加密到(公共)知识库中。在这种情况下,安全性由于只有他/她能够访问他/她的加密密钥并且因此只有他/她在技术上能够读取加密数据这一事实而增加。

知识库105还包括公共空间108,公共空间108可以被架构100的已认证实体的所有用户访问。

换句话说,知识库105包括公共空间108,其包含由架构100中记录的所有用户可访问的所有公共数据。应该强调的是,任何未被架构100认证的第三方都不能访问该公共空间108,甚至对架构100也是如此。

结果,架构100为用户提供了将私有空间106中的数据(通过密切关系来创建组)收集到共享空间107(通过密切关系创建具有较高大小的组)或者到公共空间108。空间106、107或108构成根据一个或多个标准收集的一组数据。

空间106、107或108可以构成例如根据(私有的、共享的或公用的)保密性和属性(插入这些数据的用户组)的标准收集的一组数据。

此外,属于实体的用户可以在任何时候借助于他/她的人机接口103将他/她的数据从知识库105内的一个空间移动到另一个空间。因此,他/她具有对他/她的数据的整体控制,并且可以随时与他/她选择的用户网络分享它们。他/她只能修改保密标准,而不是属性标准。

例如,用户a共享他/她的数据中的一些,使得他们可以被用户b访问。然后,他/她将他/她的数据从他/她的私人空间106通过使用他/她的解密密钥移动到他/她的实体的共享空间107,然后他/她将该共享空间107的读取权限与用户b关联。后者因此可以查阅存在于用户a的共享库107中的生物标记序列。

根据另一个实施例,用户c共享他/她的一些数据,使得它们可以被架构100中记录的所有用户访问。然后,他/她通过使用他/她的解密密钥,借助于他/她的人机接口103从他/她的私人空间106将他/她的数据移动到公共空间108。所有向架构100已认证的用户都由此可以访问解密的数据。

在非限制性实施方式中,知识库的生物标记序列全部与关键字相关联。如果用户使用特定类型的数据,则他/她可以通过使用关联的关键字来共享他/她的工作。在这种情况下,处理这种特定类型数据的其他用户将立即得到通知,并且该关联要么是公共的或私人的。

另一方面,如已经讨论过的那样,只要用户经由至少一个计算系统102进行的计算结束,结果就经由访问接口104传输到知识库105,访问接口104使软件代码能够被连接到知识库105,例如经由apirest类型接口。根据所实施的计算生物学软件,每个计算的结果对应于的不同类型的生物标记序列的列表。

人机接口103使得用户能够提交ngs数据文件并且使得用户与能够组织和解释生物标记序列的计算系统102交互,而且还可以查阅和编辑知识库105。

因此,该知识库105能够存储不同类型的信息,将所有这些信息彼此连接并且将元数据与生物标记序列相关联,然后在具有预先定义的安全级别的多个用户之间共享它们。

换句话说,该知识库105包括公开数据并且被连续地提供有用户的计算(或分析),然后被校正和更新。实际上,每个用户都可以将他/她的结果与他/她将识别的所有生物标记相结合,然后通过将新的元数据与生物标记相关联来获得知识库的内容。

例如,临床医生可以为每个患者或临床协议与其他中心(例如几个大学医院中心之间的网络)交换他/她的信息以及解释,这将使他/她能够反过来丰富患者病理的数据,更好地理解并负责治疗,从而能够集成知识库105中列出的信息。

这种模块化架构100提供了灵活性,使其可以很容易地集成到未来的医疗工具中,该医疗工具能够使得所服务的范围通过新应用轻松地完成,同时也保证市场的最精确的结果。这种类型的架构100使用户能够经由人机接口103直接访问应用并查阅或下载他/她的在线解释的结果。

在非限制性实施方式中,架构100包括一组资源109,使得能够组织知识库105中存在的生物标记序列。

这些资源全部在知识库105内实施。

例如,架构100包括用于识别它处理(例如读取)的元素和实体的系统。如前所述,实体由用户池和他们处理的元素组成。因此,实体可以指定一个或多个用户,但也可以识别用户的服务(在后一种情况下,该服务完全独立于同一用户的其他服务)。

例如,分析有其自己的标识符,但也有属性(用户和实体)和保密性(共享或私有公共空间)信息。

架构100还可以包括用于识别和认证用户的系统。因此,用于识别和认证用户的系统代表该架构的用户,例如研究人员或甚至临床医生。换句话说,创建和查阅来自高通量测序数据的人绝不是经过分析的患者。用户使用单一名称(登录名)进行识别,并使用只有他/她知道的密码进行身份认证。如果所述用户存在于识别数据库中,则系统识别用户。系统使用认证数据的“摘要”(密码的校验和)来执行比较并验证认证。识别数据库为每个用户包含他/她所附属的实体的加密密钥。该密钥本身是使用用户的密码加密的。在认证期间,系统因此使用用户的密码来释放实体的加密密钥。然后在发送给用户之前,使用非对称系统对该密钥进行加密。具有这种架构,可以获得这些安全功能:

-密码不存储,

-加密密钥只能通过许可用户的有效密码访问,

-用户无法查阅他/她自己的加密密钥,

-用户携带他/她的证书,确保他/她已被正确识别和认证。

架构100还可以包括用于识别与至少一个用户和一个实体相关联的计算的系统。换句话说,该系统能够使分析的结果与作为分析发起人的用户以及与分析发起人相关的实体被指定唯一相关联。例如,用于识别与至少一个用户和一个实体相关联的计算的系统可以包含利用软件套件crac&ct获得的信息。得到的数据可用于检测生物标记序列并供给知识库。

架构100还可以包括使所获得的结果相关的系统。

例如,如果分析产生了生物学上错误的生物标记,则有可能搜索具有相同先前结果的分析,从而避免无用的生物测试。

架构100还可以包括用于逻辑地收集与一个用户和一个实体相关联的计算的标识符的系统。该收集系统使得能够理解生物问题、患者预后或诊断的改进,因为它使得可以对通过应用定义的规则彼此相关的计算(例如生物标记序列)具有概述。

例如,可以从具有相同病理学的患者收集分析以从中确定共同点或统计信息。

架构100还可以包括使得一条元信息与来自知识库的数据相关联的系统。这个系统可以被用户使用目的是关联讨论计算结果的文本消息。例如,可以针对由分析组或特定标记识别的问题生成实体间讨论。这个讨论允许不同专家在精确问题上进行快速交流。

在非限制性实施方式中,知识库105由数据库环形成。

换句话说,数据存储依赖于钥匙/列类型数据库环的知识库。因此,所有用户实时访问读写模式下的知识库。知识库由可根据容量和性能需求添加/删除的资源组成,从而扩大了存储环。由于数据在三个不同的地方复制,因此可以从分散式、无限制且高度可用的存储中受益。

这些复制的位置根据(机器和地理)标准自动计算,以覆盖所有可能的故障。例如,一条数据a被存储在机器x上,在机器y和z上存储另外两个副本。所有机器x、y和z构成了整个知识库。

需要提醒的是,当知识库被分配了一个动作时,这实际上是由知识库的微处理器执行的,该知识库由记录在知识库的存储器中的指令代码控制。如果应用被分配一个动作,这实际上是由存储器中的知识库的微处理器执行的,从该存储器记录与应用对应的的指令代码。

通常,在传统数据库中,存在“cap”定理:c代表“一致性”,a代表“可用性”,p代表“分区”。根据本发明,知识库基于a始终保证答案并且在p上允许海量存储(“大数据”)。至于c,它在使用范围内满足一致性需求是最佳的。没有当前的数据库可以满足三个条件(cap)。对于根据本发明的架构,进一步增加用于“保密性”的第二c,因为它使得安全级别高于常规数据库可以实现保证的现有标准。

此外,在实现根据本发明的架构中,对于每个分析(或计算),生成知识库的元素(基因组生物标记)。这些元素中的每一个都包含对生成它的分析的参考。因此,有可能收集共享相同元素(生物标记)的分析,并且通过推断,可以使分析的用户联系或可以彼此联系。

根据本发明的架构使分析完全民主化,使得临床医生或生物学家对他/她的分析具有选定的安全级别、定义共享、保证品质、适当的视觉工具和界定共享的完全自主(在他/她和他/她的ngs数据之间不再需要计算生物学和生物统计学专家)。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1