用于解释和报告基于序列的基因测试的方法和系统与流程

文档序号:12512990阅读:229来源:国知局
用于解释和报告基于序列的基因测试的方法和系统与流程

来自基于序列的测试的DNA变体的有效和准确的解释是对临床实验室的挑战。通过由于每个测试要测定更大数目的基因、致病性的新证据和不精确的临床表型而增加了测试复杂性,这使得这种挑战被复杂化。

通常,当医生为例如患者的癌性肿瘤订购基于序列的测试时,基于序列的测试工作流程开始。基于序列的测试用于更好地理解肿瘤和哪些药物可能最有效地治疗患者。在测试被订购之后,收集样品、生成序列数据,并为该癌症样品生成DNA序列信息。然后,应用信息学和分析来确定一个或多个变体。变体是相对于参考(诸如参考基因组)存在于该患者样品中的DNA改变。临床基因学家查看一个或多个变体。有时,在特定样品的场境中对特定变体的观察可以被称为变体观察。在查看变体时,基因学家评估例如哪些变体更可能是一个或多个感兴趣的疾病或表型的病因,其中变体是致病的或可能致病的,和/或哪些变体与经修改的药物反应或药物毒性相关联。然后基于医师的订购准备报告。例如,作为现场专家的实验室主任可以签出测试报告,并且结果将被发送回医师以帮助他们更好地治疗患者。

这种典型的工作流程存在若干缺陷。首先,用于解释序列结果的文献通常需要取得和查看。为了取得和查看生物医学论文和其它文献,例如,基因学家或研究者将获得并阅读论文并解释观察到的不同变体。然而,在订购测试的时间和结果返回医生的时间之间的过程可能花费长时间-否则可以花费在治疗患者上。在某些情况下,该时间延迟实际上降低了成功治疗患者疾病的几率。

第二,随着有序的基于序列的测试的数目的增加,存在可伸缩性挑战。随着测试体积增加,跟随测试解释的速度变得越来越困难。此外,随着测试的数目增加,所查看的变体和文章的数目也增加,从而使问题复杂化。

第三,测试本身变得越来越大以及越来越复杂。测试正在从考虑在基因中的少数突变(诸如使妇女易患乳腺癌的BRCA1或BRCA2基因)的简单测试,改变为考虑几十个、几百个或甚至几千个基因的测试。在某些情况下,实验室实际上对患者基因组中的所有已知基因外显子或甚至整个基因组进行测序。这样的序列在其中具有如此多的信息,其导致大数据问题,其中解释和从序列中提取相关见解变得极具挑战性。

一般来说,对进行用于研究变体的临床试验感兴趣的实体花费大量资源来寻找和招募患者进行临床试验。例如,制药公司可能对研究具有(或缺乏)特定基因改变或基因改变的群集的患者感兴趣,并且,期望具有(或缺乏)那些改变或变体的患者可以被预期对于特定的治疗做出更有利地或不太有利地反应。该公司招募了几个试验位点,其测试基因改变的潜在候选人。根据具有(或缺乏)期望的变体或变体的群集的感兴趣的表型的患者的罕见性,可能需要测试许多候选患者以找到实际具有(或缺乏)期望的变体或变体的群集的相对少数候选。甚至有可能没有识别用于研究的足够的候选以确保充分的实验。

在一些情况下,已经公布了与变体相关的文章,但是出版物太近期,以致于在请求感兴趣变体的文献的时候还没有被策展(curate)。经策展的文章所需的时间量可以根据可用于策展的资源而变化。例如,所需的时间可以至少与人阅读文章所需的时间一样长,并且在许多情况下可能更长。然而,文献可能包括关于特定感兴趣变体的相关信息。如果这些文件在测试解释之前未被策展或部分被策展,那么患者可能无法从中获得有价值的信息。在一些情况下,可以使用文本搜索技术(诸如自然语言处理)或通过为感兴趣的一个或多个变体构建“即时(just-in-time)”文献来识别未经策展的内容中的相关信息。然而,关于未经策展的内容的文本搜索技术通常不能提供与被策展内容所提供的相关或有用的结果。

关于信息本身,单个基因组变体的存在或不存在通常不是表型效应的完全决定性。然而,通常仅评估单个变体或单个DNA改变,并且通常在基因组其余部分的场境之外。例如,由美国国家生物技术信息中心运行的ClinVar数据库提供了与特定DNA改变的临床意义有关的信息。然而,在不理解其它基因改变和修改剂变体的场境的情况下,这种在一次性的基础上解释变体的模式是过于简单化的。

基因测试解释中的另一个当前问题发生在当临床医生解释用于个体的基于序列的测试的基因组并发现看起来极其罕见的DNA改变时。改变的罕见性和其发生在与特定疾病相关的(linked to)基因中的事实使得迫切地得出结论,该变体是影响患者的罕见疾病表型的病因。然而,已经提交到公共领域的许多测序研究可以极端地偏向欧洲人的后裔。因此,由于变体在一个群体或种族群体中的稀少性,所述变体可能被错误地分类为病因,即使它们在没有相同量的测序调查的群体中不太稀少。

通常,与特定基因组变体有关的知识被不断地更新。更新可以来自临床试验、研究、监管批准、治疗患者的经验或其它源。然而,即使在他们建议改变治疗或监测条件时,这些更新的效果、影响或发生并不总是清楚的。通常,患者可以基于具有特定基因组变体接收诊断,但不知道对基因组变体的理解的后续发展。

附图说明

附图并入本文并形成说明书的一部分。

图1是根据实施例的系统的框图。

图2描绘了根据实施例的示例仪表板。

图3描绘了根据实施例的示例文献。

图4进一步描绘根据实施例的示例仪表板。

图5描绘了根据实施例的示例治疗视图。

图6是根据实施例的用于确定临床试验候选的流程图。

图7是根据实施例的用于提供文献的流程图。

图8是根据实施例的用于众包变体评估的流程图。

图9A和图9B描绘了用于包括由用户所提供的反馈的示例屏幕截屏。

图10是根据实施例的多变体分类的流程图。

图11是根据实施例的用于验证评估的流程图。

图12是根据实施例的用于将基因型与表型相关联的流程图。

图13描绘了根据实施例的包括用户的分类的示例报告。

图14是根据实施例的用于评估等位基因频率的流程图。

图15是根据实施例的对变体进行打分的流程图。

图16是根据实施例的用于提供变体分类警报的流程图。

图17描绘了根据实施例的示例警报报告。

图18是根据实施例的用于提供患者门户的流程图。

图19描绘了根据实施例的示例患者门户。

图20是根据实施例的用于改进变体分类规则的流程图。

图21是根据实施例的用于改进变体分类规则的流程图。

图22是可用于实现各种实施例的示例计算机系统。

在附图中,相同的附图标记通常指示相同或相似的元素。另外,通常,附图标记的最左边的数字指示其中该附图标记首次出现的附图。

具体实施方式

本文提供了用于评估基因组变体并允许一个或多个用户与知识库交互的系统、方法和/或计算机程序产品实施例、和/或其组合和子组合。

词汇表

如在以下描述中所使用的:

“疾病(disease)”是指所关注的任何表型或表型性状(phenotype trait),包括例如疾病或疾病状态,对疾病的易患性(predisposition)或易感性(susceptibility)或异常药物反应。疾病状态的说明性和非限制性示例包括癌症、高胆固醇水平、充血性心力衰竭、高血压、糖尿病、葡萄糖不耐受、抑郁、焦虑、感染性疾病、毒性状态、药物治疗副作用、药物治疗无效、酒精中毒、成瘾、创伤等。

“治疗(Therapy)”和“治疗性(therapeutic)”包括预防(prophylaxis)和预防性(prophylactic),并且包括预防(prevention)以及改善与疾病状态相关联的症状,抑制或延迟疾病状态的进展和治疗疾病状态。

“蛋白质(Protein)”或“基因产物(gene product)”是指所翻译的或可以在翻译后被修改的肽、寡肽、多肽或蛋白质。基因产物也可以是RNA分子。

“文献(Literature)”是用于构建信息数据库的数据。该数据可以来自公共源,诸如数据库和科学和/或临床出版物,但它也可以包括专有数据或专有数据和公共数据的混合。在各种实施例中,文献是从自然语言(例如,英语语言)形式化的文本内容中导出的。文章、论文和其它参考都被认为是“文献”的类型。

“变体(Variant)”是指核苷酸或核苷酸序列相对于所建立的参考核苷酸或核苷酸序列的任何特定改变,包括但不限于单核苷酸变体、插入、缺失、重复和重排。这也包括但不限于核酸修改,例如甲基化,以及基因组中核苷酸或核苷酸序列的异常拷贝数目。

“突变(Mutation)”和“DNA改变(DNA change)”各自通常指变体。

“患者(Patient)”通常是指具有相关序列信息的生物有机体,其可包括但不限于来自一个或多个患者组织的构建DNA序列信息和/或来自一个或多个患者肿瘤的序列信息,以及选择性地包括表型信息。

“用户(User)”是指正在利用本文所描述的一个或多个方法和/或系统与本文所述的知识库和/或一个或多个方法、系统或设备直接或间接交互的人。

“过滤(Filtering)”意味着注释或更改一个或多个数据集。过滤可以表示从数据集中保留、添加、减去或添加数据点。过滤可以意味着屏蔽(mask)数据集内的一个或多个数据点。过滤可以意味着在数据集中取消屏蔽数据点。在一些实施例中,过滤是迭代过程。在一些实施例中,利用一个或多个过滤器执行过滤。在一些实施例中,由一个过滤器移除或屏蔽的数据点被第二过滤器添加回或取消屏蔽。在一些实施例中,在变体列表上执行过滤。经过滤的数据集可以小于或大于原始数据集。在一些实施例中,经过滤的数据集包括未从原始数据集移除的数据点。在一些实施例中,经过滤的数据集包括比原始数据集更多的信息。例如,经过滤的数据集可以包括以下中的一个或多个:原始数据集、与每个数据点当前是否被屏蔽有关的信息、与每个数据点是否先前被屏蔽有关的信息以及与先前过滤有关的信息。与先前过滤器有关的信息可以是应用的过滤器的类型、为过滤器的应用所选择的任何变量、由过滤器所做出的任何假设和/或过滤器所依赖的任何信息(例如,来自数据库的信息)。

概述

提供了旨在帮助解释在临床测序数据中观察到的变体的基于知识的系统和方法。本发明的一个实施例是符合HIPAA的,并且在临床文献和当前基因和疾病知识的深层专家策展的场境下评估基因组变体,以提供所公开的临床病例、药物适应症和综合指南的综合体,诸如NCCN(国家综合癌症网络)、ASCO(美国临床肿瘤学会)和ACMG(美国医学基因学院)附带发现。在一个实施例中,提供分类逻辑以基于标准ACMG准则或用户定义的记分逻辑自动地建议变体分类。这为临床基因学家、变体科学家和分子病理学家针对变体解释提供了基于证据的基础。专家所策展的内容和分析工具通过将表型信息和最新内容合并到可伸缩、可再生产、自动化的决策支持工作流程中,简化和缩放变体分类。本发明的实施例还使能有效基于知识识别患者(和/或能够访问所述患者的部位),其将理想地适合于在临床试验中被招募,其中患者基于一个或多个基因标准被优先分层、选择或招募。

基于组织成所构造信息的经策展内容对变体(诸如DNA变体)进行归类,从而对实施例中的本体加以杠杆。例如,可以在来自患者的基于测序的测试中观察变体,用来自知识库的相关所构造信息注释变体,并使用一组规则对变体进行分类。这种策展可以将一个或多个变体直接与疾病或其它表型相关联。也就是说,通过策展对从文献中捕获的所构造内容的分析可以与其它信息一起使用,诸如在不受感兴趣的表型影响的个体群体中的等位基因频率,以确定该变体非常可能是致病性或特定的表型的病因。另一方面,考虑先前在具有特定罕见疾病(例如,在50000活产中发生少于1例的疾病)的个体中发现的基因中的变体,但是也存在于所有欧洲血统患者的52%中。在52%的所有欧洲人中存在的变体不太可能是因为存在于50,000个活产中的少于1的罕见疾病的病因。如果变体对特定隐性疾病是致病性的,并且变体存在于特定群体的52%中,则预期在约26%的群体中可以发现特定的疾病。如果变体极不可能致病,在一个实施例中,该变体被分类为良性。变体的自动评分或分类的特定方法、系统或介质在PCT公开号No.WO 2013/070634中讨论,其全部内容通过引用合并于此。

本发明的实施例基于该疾病场境概述了用于解释数据集的相关信息。该系统可以允许用户钻入特定变体(例如,BBS1变体),并从文献和各种数据库接收概述与该变体、其相关疾病或其它表型、及其患者案例场境相关的数据的信息的仪表板。

在实施例中,一个或多个用户可以包括一个或多个策展人。策展人是查看来自知识库的信息并从其组织信息的用户。一个或多个策展人可以包括例如但不限于医生、具有相关主题(例如PH.D.、M.S.、B.S.等)的学位的个人、专家或其任何组合。策展人可以单独或团队工作,以查看来自文献的信息池以捕获洞察、事实、发现等,并将它们组织为所构造信息以用于并入知识库。

例如,可以根据使用工具的本体来构造信息,所述工具诸如PCT公开号No.WO 2013/070634中描述的系统、方法或介质,其全部内容通过引用合并于此。本体是知识的经构造形式。本体可以包括基因和表型信息之间的关系。通过将来自知识库的信息包括在本体的经构造形式中,可以利用本体元素之间的关系来导出附加信息。

本体可以使得更容易找到相关信息。例如,如果用诸如疾病或表型的概念查询知识库,则本体从本体中的关系理解所查询的概念与本体中的其它概念相关或并入本体中的其它概念。例如,在知识库中利用本体搜索“乳腺癌”的概念可以揭示与乳腺癌相关的一个或多个基因的相关概念,或者描述乳腺或乳腺肿瘤或原位导管癌的论文。以这种方式,即使相关概念不以任何方式直接重叠,系统理解概念之间的关系。如果一篇文章涉及乳腺癌,并且用户录入了请求与乳腺癌相关的突变的查询,则该用户将不仅从该文章接收到相关的结果和见解,还有由于本体中的链接而被识别为与该文章相关的其它文章。虽然这是更简单的例子,但是它说明了使用本体来发现和利用相关概念的力量。

作为如何根据本体构造的知识库可以使得更容易找到相关信息的另一示例,用户可以使用多个属性来查询。例如,用户可能对EGFR(表皮生长因子受体)中的特定突变感兴趣,并且希望看到所有相关文献证据,其讨论该特定突变和对患者对治疗的响应之间的关系。使用传统关键字搜索文章并读取返回的结果是查找信息的典型方法。但由于关键词的限制和研究者在吸收整篇文章以收集相关信息的时间,这种典型的搜索是耗时且低效的,并且可能不能捕获所有相关信息。当使用知识库和本体时,这种搜索和分析变得更容易。

在一个实施例中,使用来自知识库的信息来执行一个或多个分析。例如,来自知识库的信息可以用于人类DNA序列解释的翻译应用,诸如找到对于人类疾病是病因的DNA改变。来自知识库的信息也可以用于基于序列的测试的临床解释。越来越多的实验室正在研究DNA改变或DNA变体。这样的测试的结果可以帮助医生做出疾病的诊断、识别患者的肿瘤可能易受影响的药物、识别什么药物可能最适合治疗特定患者等。相反,测试可以指示哪些药物可能不能基于序列信息治疗特定患者,例如,存在于肿瘤中的突变。

在知识库中收集、搜索或分析患者特异性信息可能需要该患者的同意,并且在一个实施例中可以是符合HIPAA。该患者同意可以在各种时间获取并且具有特定范围。例如,患者可以为患者测试信息的任何使用或仅特定使用提供同意。可在测试、样品提取或另一时间获得患者同意。例如,患者同意书或调查问卷可能会问,“您希望未来获得通知,以便基于您的测试信息,临床试验可能对您有所帮助吗?这样的问题可以例如包括在电子问卷中的复选框。如果患者同意,则患者的测试信息可以用于临床试验匹配。例如,可以将患者的基因测试信息与制药公司正在进行的药物试验进行比较,以查看该患者是否适合于试验。对于药物公司,基因信息对于预测哪些患者会或可能不会对药物有反应非常有用。此外,实际上具有药物公司感兴趣的那些基因改变的患者将通过知道该药物出现而获益,并且他们可能有资格进行试验场境下的疗法,特别是如果他们的当前治疗未成功。因此,患者可能相当感兴趣地提供对患者的测试信息的使用的同意以用于临床试验匹配。

获得这种预先同意的好处是显著的。如本文所讨论的,通过在研究期间随机抽样群体中的个体来找到具有特定基因组变体或变体群集的患者是非常困难的。维持已经被观察到的携带基因组变体的患者的数据库生成了有价值的人类目录,使得试验和试验地点能够更快地被招募,通过提供更快速地访问靶向治疗而使患者受益,并且通过帮助他们将新的疗法更快推到市场。

门户

图1是用户可以通过其与云上的知识库交互的系统100的框图。这样的系统允许来自不同位置的用户利用公共数据集,并将其自己的信息贡献给知识库。

系统100包括通过网络106与客户端104通信的计算系统102。计算系统102可以具有服务器功能。计算系统102包括引擎108和储存器110。引擎108可以被配置为执行过程,诸如本文所讨论的任何过程。储存器110可以存储诸如从计算系统102所接收的信息的数据。储存器110可以包括数据库、知识库、任何形式的计算机存储器或其任何组合。

客户端104可以是任何类型的计算设备,诸如但不限于个人计算机、移动电话、平板电脑、PDA、工作站、嵌入式系统、游戏机、电视机、机顶盒或任何其它计算设备。在实施例中,用户可以操作客户端104上的界面或门户105以访问位于计算系统102上的信息。门户105可以是特定于由客户端104运行的特定计算设备平台的本地应用。可替选地,门户105可以经由在客户端104上运行的浏览器(诸如网络浏览器)来访问。

网络106可以是可以携带数据通信的任何网络或网络的组合。这样的网络106可以包括但不限于局域网、城域网和/或诸如互联网的广域网。

在实施例中,计算系统102从客户端104接收请求112。请求112可以包括例如但不限于对报告、测试、测试结果或其任何组合的请求。计算系统102可以基于存储在储存器110中的信息来处理请求112以产生结果114。计算系统102然后可以将结果114传送到客户端104。

图2描绘了根据示例实施例的示例仪表板200。在一个实施例中,仪表板200中的信息由计算系统102提供给客户端104以经由门户105显示。仪表板200提供关于特定基因组变体是否与特定表型相关的信息。在该实施例中,基因是BBS1(Bardet-Beid1综合征1),变体是c.1169T>G,并且表型是Bardet-Beid1综合征。该基因、变体和表型组合仅用于说明示例。在不脱离本发明的精神和范围的情况下,本领域技术人员将认识到仪表板可以包括其它基因、变体和表型的任何组合。

在仪表板200中,在基因场境中基因组变体的位置在位置202处示出。如行204中所示,该基因(BBS1)具有多个外显子。指示符206识别基因内的DNA突变的位置。行208显示基于位于知识库中的信息已经识别基因损伤性突变的其它位置。该显示给用户快速的视图,以看到这个变体是否位于可能导致疾病的其它DNA改变的热点中。

仪表板200的“报告的临床病例”部分提供与位于知识库中的变体相关的临床病例的综合。例如,这可以包括与该表型相关的生物医学文献中存储在计算设备102的知识库中的所有特定变体患者病例。通过该综合,用户可以快速地看到具有两个感兴趣的表型和具有该变体的基因的患者群组。还可以快速地看到具有该特定变体但没有表现出表型的患者。这样的患者在仪表板200的界面中突出显示。具有这种基因组变体但不表现表型的患者可能感兴趣以确定该变体是否与表型并不是有因果关系地相关,和/或确定是否存在即使当存在该特定变体时抑制表型的变体的组合。人们可以经由链接210非常快速地访问文献和与该变体相关的文献。在一个实施例中,这样的链接嵌入在作为所报告的临床病例的一部分示出的图标中。

图3描绘了根据实施例的示例文献界面300。在实施例中,当用户选择仪表板200中的链接210时,计算系统102提供文献界面300。文献界面300示出是否存在与疾病和感兴趣变体之间的基因交互相关的出版物。通过文献界面300,诸如实验室指导者或基因学家的用户可以快速评估与该变体和该表型相关的文献证据。用户可以选择要包括在报告上回给医生的特定文章。文献界面300可以将单独的相关文献分成多个标签。例如,可以在一个标签中提供支持仪表板200上示出的分析的文献,而在另一个标签中提供从分析中排除的文献。如果文献被识别为例如不可信的或与感兴趣的变体或表型实际上不相关,则可以将其从分析中排除。当用户正在审阅文献时,用户可以添加针对特定结果的笔记,或者可以请求从相关文档的列表中排除特定结果。

图4描绘了根据示例实施例的由仪表板200提供的进一步信息。例如,仪表板200还可以提供在其它实验室中观察到的临床病例证据,在仪表板200中示出的标题“Clinical cases from other laboratories.(来自其它实验室的临床病例)”。在图4的示例中,存在名为“ClinVar”的数据库,其包括来自其它实验室的评估。这可能是对用户的有用的保证。在图4的示例中,如果实验室计划签出说明BBS1变体对该患者是致病性的测试,则可以保证一个或多个其它实验室将该变体分类为致病性。来自其它实验室的信息可以由计算设备102通过例如咨询来自这种实验室的信息库和/或通过计算设备102与那些实验室之间的直接链接来获得。

仪表板200还提供对该变体在一般群体中的稀有性的评估。如上所述,如果变体在给定群体中是常见的,那么变体不可能是罕见疾病的病因。另一方面,如果变体在给定群体中是罕见的,则其与变体是罕见疾病的病因一致。在图4所示的示例中,所示的罕见百分比示出该变体在群体中的流行与一般群体中的疾病(表型)的表达一致。这加强了变体(BBS1)与疾病(Bardet-Beid1综合征)有因果关系地相关的发现,因为它是在对于疾病预期的范围内的频率下观察到的。

在一个实施例中,仪表板200可以提供由于变体引起的DNA改变的生物化学影响的评估。仪表板200可以提供到文章的一个或多个链接,其中用户(例如,科学家)可以探索这种特定DNA蛋白质改变的生化影响,并也预测生化影响。例如,各种工具可以预测给定的DNA改变是否损害或可能不损害蛋白质的功能。这样的工具可以包括,例如但不限于,SIFT(从容忍中排序不允许(Sorting Intolerant from Tolerant))算法;PolyPhen(多态性表型(Polymorphism Phenotyping))算法;Blosum矩阵;PhyloP模型;和B-SIFT(双向SIFT)算法。这些工具的示例标准可包括给定的DNA或蛋白质改变是保守性还是非保守性氨基酸取代,是否在跨哺乳动物的高度保守区域观察到变体,即使变体的效果是未知的。特定变体影响在跨所有哺乳动物物种高度保守的核苷酸或蛋白质位置可以表明该变体正在做重要的事情。该信息和这些算法可以用于预测该DNA改变是否可能干扰基因或蛋白质功能,可替选地,以某种方式例如通过基因融合增强或加强功能或创建新功能。

图5描绘了示例疗法视图500,其包括可能与具有特定基因组变体或变体的群集的患者相关的药物和/或治疗的概要。视图500可以经由来自仪表板200(未示出)的链接来访问。在图5的示例中,疗法视图500描绘了在知识库中所识别的与由特定基因突变(EGFR外显子19缺失)引起的肺癌相关的药物疗法。在该实例中,证据已经从FDA的网站进行策展,并且处方信息指示该疗法与具有肿瘤的患者,特别是在EGFR中具有外显子19缺失的癌症相关。如果用户选择链接,则用户将被定向到底层参考或数据源。例如,如果用户选择图5所示的“U.S.Food and Drug Administration(美国食品和药物管理局)”链接,用户将被带到FDA的网站,以查看该药物的处方信息,通过其策展数据。

在一个实施例中,疗法视图500还可以描绘正在进行的临床试验。例如,制药公司可能正在进行试验,寻找在某种疾病场境下具有某些突变的患者,因为他们正在测试可以帮助这些患者的新疗法。当由具有特定患者信息知识(或者如果患者信息包括在知识库中)的医生或研究者观察时,在疗法视图中识别这样的临床试验可以使预期参与者能够与相关公司接触(经由医生、实验室或直接)参加临床试验。如果预期参加者已用尽其它治疗性选择,则该列表还可以告知患者可能有益于患者的后期发展。

增强的预分析

随着越来越多的患者测试信息被收集在知识库中,知识库可以用于不仅仅从文献和临床试验中提取相关信息。在实施例中,如果患者授权,则可以使用在知识库中所包括的大量患者基因信息来识别可用临床试验的候选。来自多个位点和组织的数据可以在知识库中组合并被搜索以识别有资格进行特定靶向临床试验的位点和患者,使得那些位点和/或患者可以更快地参与试验。这可以简化和加快试验招募,使患者能够更快速地获得更有可能有效治疗其疾病的生命治疗,同时还使制药公司能够更快地将新的治疗方法推向市场,并相对于常规方法显著降低成本。图6是根据实施例的用于确定临床试验的候选的方法600的流程图。方法600可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法600由计算系统102执行。

在框602中,从用户接收临床试验招募标准。在实施例中,计算系统102经由客户端104上的门户105从用户接收临床试验招募标准。临床试验招募标准可以包括基因靶向标准、患者测试信息参数、患者序列变体参数、患者表型参数、患者同意参数等。

在框604中,对患者测试信息的知识库(和/或与患者接触的位点)搜索与临床试验招募标准匹配的患者。在实施例中,计算系统102在位于储存器110中的知识库中搜索这样的患者。例如,可以对知识库搜索具有药物或治疗非常可能响应的变体的特定群集的试验候选。

在实施例中,搜索包括访问患者电子医疗记录或患者电子医疗记录的派生物中的至少一个。计算设备102可以通过网络(诸如网络106)与电子医疗记录提供者或数据库连接,以便获得对患者信息的访问。

在实施例中,患者测试信息位于储存器110中的知识库中。例如,患者测试信息可以由计算设备102经由网络(诸如网络106)从多个独立的客户实体接收。例如,多个测试位点可以收集患者的测试信息(诸如它们何时被测试时以及该测试的结果),而不管该测试是否用于感兴趣的特定临床试验。在过程期间的任何点,诸如在测试之前,患者可以提供同意以允许测试信息的后续使用,诸如确定患者是否可能是临床试验的候选者。这样的患者测试信息和同意可以由计算机102存储在储存器110中。然后可以将患者测试信息和/或同意与所接收的患者测试信息参数和/或所接收的患者同意参数进行比较,以查看患者是否与临床试验匹配。

在实施例中,患者表型信息位于计算机系统102上,并且根据本体被构造和可搜索。例如,知识库可以包括将患者表型信息与一个或多个变体(诸如通过基于序列的测试可发现的变体)相关联的信息。当计算设备102接收到患者表型信息时,计算设备102可以使用引擎108处理信息,并将该信息存储在位于储存器110中的本体知识库中。然后可以将该患者表型和基因型信息与包括期望的基因型信息的所接收的期望患者临床试验参数进行比较,以查看患者是否与临床试验匹配。

在框606中,通过例如计算系统102向用户(例如,搜索临床试验参与者的实验室或公司)提供与临床试验招募标准匹配的已同意患者的搜索结果。搜索结果可以包括与患者有关的信息的任何组合,例如,人口统计学信息、患者表型、基因组变体或对于匹配或从临床试验中排除患者有用的任何其它信息。另外或可替选地,搜索结果可以按位点聚合。例如,搜索结果可以列出已经同意满足招募标准的患者的前五个位点和/或在每个位点的匹配临床试验招募标准的患者数目。

在实施例中,提供了使一个或多个患者能够查看测试信息的患者门户。例如,患者可以经由在客户端104上运行的门户105访问计算系统102。本领域的技术人员将认识到,门户105可以具有不同的能力,这取决于其是否旨在由实验室/研究者使用,或是否旨在由患者使用。患者门户可以由患者授权的个人或实体访问,诸如患者、患者家属、护理提供者(例如医师或基因学家)、研究者、保险公司或其任何组合。关于患者门户的进一步细节在下面关于图18和图19描述。图19示出了示例患者门户,实施例支持使一个或多个患者能够查看测试信息的任何患者门户。

在实施例中,可以基于患者与患者门户的交互来获得各种数据。这样的数据可以包括,例如但不限于,患者是否可能仍活着(基于患者与系统的一致的或持续的交互)、患者的地理位置、患者对临床试验的兴趣或其它患者表型信息。例如,当患者登录患者门户时,这可以指示患者活着,仍然具有寻求疗法的条件,并且对接收关于其它治疗或疗法选项的信息感兴趣。类似地,如果患者正在输入(或提供者代表他们输入)新的测试信息或表型信息,则其可以指示患者是否受相关表型影响。此外,患者或其提供者可以输入健康记录信息,其可以帮助评估患者是否适合于特定临床试验,例如患者已经暴露于什么疗法方案,患者已经被诊断有特定表型持续了多长时间,以及表型是否被认为成功治疗。

在实施例中,将匹配临床试验招募标准的一个或多个患者招募到临床试验中。在实施例中,基于以下事实,选择能够访问患者的一个或多个位点或独立组织用于在试验中激活/招募:他们已经看到大量具有期望的试验特征的患者,包括但不限于期望的基因型特征,其使得它们非常适合于试验。在一个实施例中,基于患者具有使其不适合于特定临床试验的测试信息(包括基因型特征)的事实,排除患者。

促进患者的基因型评估以识别一个或多个试验的感兴趣的患者和/或位点解决了传统上涉及进行临床研究的若干问题,并且可以减少与发现潜在候选患者招募相关联的许多费用和风险。获得关于潜在候选的基因信息可以消除或至少减少研究提供者必须等待个体对关于临床试验的广告或推荐做出响应的情况。此外,传统上,不能保证响应这样的广告或推荐的个人实际上具有要研究的特定变体。另外,在患者的知识库中搜索如本文所讨论的从多个组织编译的测试信息降低了测试大量人的风险、时间延迟和成本,仅为了发现具有感兴趣的基因组变体的足够的人尚未被识别。

文献

为了最大化有用性和相关性,可以在常规基础上更新与给定变体相关联的引用的文献,以确保关于变体的最近知识包括在用户的结果集中。参考的文献也可以在收到与某些生物医学文献相关的测试信息时或在预期接收与某些生物医学文献相关的测试信息时由系统根据请求更新。在实施例中,当用户从仪表盘200请求文献时,实时地生成文献。这种类型的“即时”文献有助于捕获尽可能多的相关信息,而不会丢失最新的信息,因为它是未经策展或仅部分策展的。在另一实施例中,当包括一个或多个变体的测试信息被上载到系统中时,文献被实时地更新。图7是根据实施例的用于提供文献的方法700的流程图。方法700可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法700由计算系统102执行。

文献(诸如文献500)可以包括经策展的和未经策展的或部分策展内容。部分策展的内容可以指经历了一些策展,但尚未完全策展的内容。部分策展的内容可以被包括在知识库中,即使它不包括经策展的内容的细节水平。在一个非限制性实例中,部分策展的内容可以包括已经被验证为涉及特定变体和特定疾病表型的文章。在另一个非限制性实例中,已经对部分策展的内容进行了分类,以确定该论文是否包括功能性证据和/或临床病例证据。这允许向用户提供更相关的文章证据,不仅是在生物医学文献中被策展为与在患者的测试信息中观察到的一个或多个变体有关的文章,而且还有来自知识库、文献库的附加文章或引用,其尚未被策展或者已经被部分策展但是预期与基于例如参考内的关键字的变体相关。

在框702中,接收测试信息。在实施例中,计算系统102接收测试信息。可以从一个或多个源接收测试信息。例如但不限于,可以从测试对象、实验室、护理提供者、保险公司等接收测试信息。

在实施例中,经由自动管线接收测试信息。自动管线可以包括用于自动接收、排队或作用于测试信息的过程。例如,可以从基因数据库、出版物数据库、客户工具或其它源自动获得测试信息。如本文所讨论的,例如,测试信息可以被合并到知识库中,经历一个或多个分析,包括在文献中等。

在框704中,从知识库中选择一个或多个经策展的文章。在实施例中,计算系统102从知识库中选择一个或多个经策展的文章。一个或多个经策展的文章可以与通过测试信息所识别的一个或多个基因组变体相关。例如,可以选择与BBS1基因相关的经策展的文章。在另一个示例中,诸如图5所示的示例,可以选择与EGFR外显子19缺失相关的经策展的文章。

在实施例中,根据本体在知识库中组织一个或多个经策展的文章。可以使用本体的特征来查询知识库,以找到与一个或多个基因组变体相关的一个或多个文章。

在框706中,选择一个或多个未经策展的或部分策展的文章。在实施例中,计算系统102选择一个或多个未经策展的或部分策展的文章。可以预期一个或多个未经策展的或部分策展的文章与测试信息中所识别的一个或多个基因组变体的解释相关。

在实施例中,从知识库中选择一个或多个未经策展的或部分策展的文章包括确定一个或多个未经策展的或部分策展的文章指示与一个或多个基因组变体相对应的基因标识符,以及一个或多个基因组变体的蛋白质或核酸标识符。例如,可以选择在BBS1基因中包括提到一个或多个特定变体的未经策展的或部分策展的文章,其使得看起来文章涉及该特定DNA或蛋白质改变。

在实施例中,选择一个或多个未经策展的或部分策展的文章包括使用自然语言处理确定一个或多个未经策展的或部分策展的文章与一个或多个基因组变体相对应。在一个实施例中,利用生物医学本体来执行自然语言处理。

在框708中,将文献提供给用户。在实施例中,计算系统102向用户提供文献。文献可以包括一个或多个经策展的文章和一个或多个未经策展的文章。以这种方式,“即时”文献不仅包括已经被策展的论文,而且包括最新的有趣信息,其具有在其中建议与感兴趣变体的解释相关的文本。

接收经策展的和未经策展的或部分策展的内容对于解释特定患者的测试信息可能是非常有用的。虽然由于它已被策展的事实策展内容可能被认为是更相关或可靠的,但是在信息变得可用和当该信息被策展时之间存在时间滞后。如果该信息被确定为与测试信息合理相关,则分析人员仍然有兴趣接收仍未能够被策展的最近已发布的信息。例如,如果昨天一篇关于病人测试的文章才出来,则医生和实验室想知道那篇文章。医生和实验室可能不在乎是否已经过了合理的时间来完全地策展该文章;相反,他们希望看到任何潜在相关的、最新的信息,并且确定该信息是否是与该患者的疗法相关的信息。

在实施例中,接收来自一个或多个用户的与在文献中呈现的文章有关的反馈。因为用户可能正在阅读文章并签署患者测试报告,所以一个或多个用户可以提供与文章有关的有意义的信息。例如,用户可以指定文献中的文章与感兴趣变体如何相关。例如,用户可以拉起文献并指示论文名义上与特定变体或特定表型相关、论文不满足质量标准、或者论文具有足够的信息来指示变体是特定表型的病因。用户可以例如通过选择包括或排除来自报告的论文或者在变体的自动化评估中将其包括在分析中或排除在分析之外来指示这一点。用户还可以建议可能与在文献目录中不显示的一个或多个变体相关的附加论文。在一个实施例中,对于所述用户或对所述一个或多个变体感兴趣的其它用户,这些文章被优先化以用于策展和/或被包括在用于所述一个或多个变体的文献中。

众包变体评估

在实施例中,知识库中的数据是静态的,因为用户不能改变或挑战信息。然而,许多时候,用户(诸如医师或实验室研究者)处于用于评估知识库数据的良好位置,因为用户可能在当前感兴趣的场境中访问和分析数据。因此,在另一实施例中,可以通过允许用户主动地或被动地(即,作为其工作流程的自然部分)编辑或注释数据来增强知识库中的数据。这种通过网络从用户收集的数据在这里被称为众包。图8是根据实施例的用于众包变体评估的方法800的流程图。方法800可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法800由计算系统102执行。

在框802中,从用户接收测试信息。在实施例中,计算系统102接收测试信息。

在框804中,评估在测试信息中所包括的一个或多个基因组变体。在实施例中,计算系统102评估一个或多个基因组变体。可以使用评估方法的任何组合来评估一个或多个基因组变体,例如本文或PCT公开号No.WO2013/070634所讨论的,其全部内容通过引用合并于此。

在实施例中,评估包括将一个或多个基因组变体分类为临床意义类别。可以使用变体评分逻辑对一个或多个基因组变体进行分类。临床意义类别的示例包括但不限于致病性、可能致病性、不确定的意义、可能良性和良性。

在框806中,从用户接收反馈。在实施例中,计算系统102从用户接收对评估的反馈。反馈可以作为来自与门户网页、本地应用或其它输入源交互的用户的输入来接收。可以以各种方式接收反馈。例如,在实施例中,接收反馈包括接收对一个或多个经评估的基因组变体的选择,以及接收一个或多个所选变体的分类。在另一个实施例中,接收反馈包括接收用于评估一个或多个变体的参考的值或相关性的指示。例如,可以以“拇指向下”或“拇指向上”按钮的形式提供反馈。在另一示例中,反馈可以包括用户是否从报告包括或排除了参考。在又一个实施例中,接收反馈包括接收未经策展的或不完全策展的文章的指示,以及优先化未经策展的或不完全策展的文章的策展。在进一步的实施例中,接收反馈包括从用户接收未经策展的或不完全策展的文章的策展。在另一实施例中,接收反馈是被动的,例如,一个或多个用户人工地建议不同于由决策支持系统生成的机器预测分类的一个或多个变体的临床分类。这可以触发与变体或评论相关的证据的评估和/或策展,并且潜在地调整机器预测的支持评分逻辑以改进决策支持系统的未来预测能力。策展可以包括变体的表型信息,其中表型信息根据本体被构造。在任何实施例中,反馈可以指示未经策展的或不完全策展的文章与评估在测试信息中所包括的一个或多个基因组变体相关。

在实施例中,测试信息包括根据本体所构造的变体的表型信息。

在实施例中,由用户所提供的反馈用于一个或多个基因组变体的随后评估。该反馈是由变体解释领域的技术人员进行的对计算机化系统的训练,并且可以用于随时间(例如,如在机器学习中)持续地改进评估。也就是说,随着更多的人分数和评估变体,评估改善,因为训练使得预测算法和内容更强。

在框808中,向一个或多个其它用户提供反馈。在实施例中,计算系统102向一个或多个其它用户提供反馈。

使用文献特征,一个用户可以看到与一个或多个变体相关的文章,并钻研它们以获得更多信息。用户还可以建议在文献中包括另一个参考,诸如用于评估变体的用户最喜欢的参考。当下一个用户访问与相同变体相关联的文献时,下一个用户可以添加关于该参考的信息,并为用户的报告选择该参考。这些迭代努力可以提高用户可用的参考的数量和质量。

在实施例中,向第二用户提供与一个或多个基因组变体有关的第一用户的反馈。例如,计算系统102可以从第二用户接收第二测试信息,其中第二测试信息包括一个或多个基因组变体。当向第二用户提供第二测试信息的评估时,计算系统102还可以提供来自第一用户的反馈。

图9A和图9B描绘了图示出由用户提供录入到文献中的反馈的示例屏幕截屏900和950。截屏900包括来自其它实验室的临床病例、一般人群中基因变体的稀有性、已知生化影响的参考和所预测的生化影响。可以针对一个或多个源显示一般群体中的变体的稀有性,其可以使用下拉902来选择。

内部实验室变体分类和注释数据库可以被集成到由工具使用的私有实例中。然后,一个或多个用户可以注释分类或注释的私有实例。屏幕截屏950包括用于编辑评估(例如,屏幕截屏900中提供的评估)的多个域。在屏幕截屏950中,用户可以查看或编辑表型、评估、可报告性、笔记和用于评估的先前注释。可报告性可以指编辑是否是可报告的或不可报告的。

图9A和图9B提供示例屏幕截屏900和950,本发明的实施例支持用于查看或编辑用户反馈的其它类型或布置屏幕,其中与用户反馈相关的任何信息可以呈现给患者或其它用户,包括但不限于本文讨论的任何信息。

多变体分类

如上所述,单个变体可以与特定表型相连,使得具有变体的患者可能表达特定表型。但是并不总是那么简单:许多患者表现出多种基因突变,并且可能需要考虑那些突变(或缺乏)的组合效应,例如,以获得该患者的健康和/或疗法选择的真实图像。修改剂变体和基因背景可以显著影响特定变体与特定患者中给定表型的表现相关的程度,诸如疾病或对药物疗法的反应。图10是根据实施例的用于多变体分类的方法1000的流程图。方法1000可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1000由计算系统102执行。

在框1002中,接收患者的测试信息。在实施例中,计算系统102接收测试信息。可以从一个或多个源接收测试信息。例如但不限于,可以从测试对象、实验室、护理提供者、保险公司等接收测试信息。

在框1004中,部分地基于患者中基因组变体与一个或多个其它基因组变体的同现来确定测试信息中所包括的基因组变体的临床评估或意义类别。在实施例中,计算系统102确定意义类别。可替选地或另外地,可以基于患者中基因组变体与一个或多个其它基因组变体的共现来修改测试信息中所包括的基因组变体的现有意义类别。

在实施例中,确定意义类别使用关于基因组变体和一个或多个其它基因组变体的知识库中的信息。可以根据本体来构造信息。知识库可以识别基因组变体和一个或多个其它基因组变体之间的链接。在实施例中,这样的修改剂变体信息从根据本体构造的生物医学文献策展的证据导出。在实施例中,这样的修改剂变体信息从能够使基因型信息和表型信息相关的患者测试信息的数据库导出,以识别非常可能修改表型的严重性(或存在/不存在)的变体。例如,讨论变体之间的交互的参考可以影响给定变体的临床评估,并且基于在该患者中观察到的其它变体或随时间进入知识库的新文献或数据库证据而经受改变。这与使用单独的变体独立地而不考虑患者的测试信息中其它修改剂变体存在或不存在的临床评估在根本上是不同的。

例如,当特定基因组变体单独出现时可以是相当良性的,但是与其它基因组变体组合时是致病性的。可替选地,变体可以在一个患者中是致病性的,但在具有减轻第一变体的潜在负面影响的一个或多个其它变体的另一个患者中是良性的。因此,可以将自身识别特定变体的患者测试信息指派给一个意义类别,但是与独立评估所述变体的情况相比,识别与其它变体组合中的相同变体的患者测试信息可以被指派到不同的意义类别。在实施例中,具有一个或多个已知修改剂变体的第一变体的临床评估将被指派给不仅基于与所述第一变体相关的证据的临床意义类别,而且基于该变体与该患者的测试信息中存在或不存在的修改剂的组合的综合评价。可以基于与从知识库获得的多变体关系有关的信息来确定所指派的具体意义类别。

在一个实施例中,可以根据用于变体评分的美国医学基因学学院的指南评估感兴趣的给定的变体。评分指南可以被实现为一系列基于计算机的规则,其中规则可以被指派各种权重或意义水平。然后可以将该基于计算机的评分逻辑扩展为包括用于其它修改剂变体位点的知识库中的文献的基于计算机的评估,所述其它修改剂变体位点已知与感兴趣的变体交互以修改表型。可以查询经策展的文献的知识库以确定病例是否已被记录,其中患者具有感兴趣的变体以及在已知或被认为修改由感兴趣的变体引起的表型的严重性或性质的其它位点处的一个或多个序列。

例如,如果可以对CFTR delta-F508突变进行评分以评估患者的囊性纤维化的风险,但是该患者在已经记录在文献中的基因组中的另一位置处具有序列变体(或缺乏变体)以减轻或消除患有纯合的delta-F508突变的患者的囊性纤维化表型,根据支持修改剂变体的文献或数据库证据的质量和数量,规则将触发将delta-F508突变的变体分类从“致病性”改变为不太严重的类别。修改剂变体可以在与感兴趣的变体相同的基因中,或者它可以在不同的基因中。

在实施例中,可以分析囊性纤维化患者队列的数据库以评估是否对delta-F508纯合的未受影响的个体具有修改剂序列,以及该修改剂是否与具有纯合的delta-F508突变的患者中的无疾病状态共分离,其通常被评估为致病性。例如“Exome sequencing of extreme phenotypes identify DCTN4as a modifier of chronic Pseudomonas aeruginosa infection in cystic fibrosis,”的论文可以指示这样的修改剂变体可能存在。本文讨论的多变体分类的技术能够利用来自根据本体构造的生物医学文献的经策展的证据,以基于规则集修改感兴趣变体的分类。

在实施例中,可以评估患者的癌症疗法选择,但是修改剂序列或序列(诸如其变体或缺失)可以修改该患者的经评估的疗法选择。例如,晚期黑色素瘤患者可能对BRAF V600E变体测试为阳性,其通常与用vemurafenib疗法时更有利的结果相关联。然而,可以通过在BRAF中或已知或被认为在生物医学文献、临床试验和/或由一个或多个监管机构批准的处方信息中改变患者对vemurafenib的反应的其它基因中的一个或多个其它变体(或缺乏变体),来修改评估。修改剂变体在患者测试信息中的存在可以修改变体评估和/或测试结果,包括但不限于修改测试结果文献以包括与感兴趣变体和其它序列变体之间的(或缺乏)交互相关的论文,其修改通常由感兴趣的变体引起的表型。

在实施例中,确定意义类别使用基于规则的评估。基于规则的评估可以处理一个或多个规则以分类基因组变体。例如,用于评估基因性疾病变体的规则集可以用于将变体分类为致病性、可能致病性、未知的意义、可能是良性的或良性的。这样的规则集可以包括变化权重的规则。规则可以声明在不受相关表型影响的群体中具有等位基因频率的感兴趣的变体不太可能是该表型的病因。这样的规则可能是有利于良性或可能良性分类的有力证据。可替选地,规则集的分类类别可以为医生、个人或机构定制和自定义感兴趣的特定应用。例如,规则集可用于评估变体在治疗特定形式的癌症中的临床意义的程度。在一个非限制性示例中,基于癌症序列的测试解释应用的分类类别可以包括临床相关(相同组织)、临床相关(不同组织)、临床试验相关或相关的癌途径。

在实施例中,用于解释癌症变体的规则可以声明,如果变体直接参考由适当的管理机构(例如,FDA)批准的用于在感兴趣的组织中治疗癌症的药物的处方信息,则该变体应该被分类为相对于该样品临床相关的(相同的组织)。例如,FDA的网站包括基于在EGFR基因中观察到的突变的药物的描述。这可能是一个非常强的证据线。系统评估这些规则及其证据强度,并将所计算的分类返回给用户或审阅者。

例如,由系统基于知识库中可用的信息计算的分类可以将变体标记为潜在良性或可能良性。这样的评估基于知识库中的证据,其示出第一变体与具有减轻通常与第一变体相关联的表型的第二变体在相同患者中共存。也就是说,该患者中的另一DNA突变导致该患者可能不患有第一变体的典型疾病或有害作用。尽管第一变体在99%的人中是致病的,但是已知第一变体在基于现有证据的这样的多变体患者中不是致病性的。

在实施例中,已知一个或多个其它基因组变体给予对基因组变体的表型效应的附加的敏感性或抗性。例如,知识库可以具有讨论基因变体之间的关系的参考,其证明了对表型效应的附加的敏感性或抗性。这些关系可以作为所构造信息(例如根据本体所构造的)被存储在知识库中。在实施例中,变体是肿瘤学中的体细胞变体或使患者易患基因失调的遗传性变体中的至少一个。

在框1006中,向用户提供意义类别。在实施例中,计算系统102向用户提供意义类别。用户可以同意或不同意所计算的意义类别。在实施例中,如果审阅者不同意所计算的意义类别,则审阅者可以修改它。继续上述返回“可能良性”的类别的示例,查看者可以建议另一种分类,诸如“可能致病的”,并且仍然将其包括在他的报告中,但是另外注释了为什么审阅者同意或不同意分类。

提供测试信息的专家评估

用户可以使用门户105来请求专家评估患者的测试信息。图1100是根据实施例的用于向用户提供专家评估的方法1100的流程图。方法1100可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1100由计算系统102执行。

在框1102中,从用户接收帮助解释测试信息的请求。请求可以包括特定患者的测试信息。可替选地或另外地,请求可以引用已经存储在知识库中的测试信息。在实施例中,计算系统102接收该请求。

在框1104中,将该请求指派给一个或多个合格的变体评估专家。在实施例中,计算系统102指派请求,该请求可以由专家通过网络106访问。合格的变体评估专家可以是已经在准备、执行或查看变体评估中获得特定专门知识的个体。可以通过认证主体或通过满足一组标准来认证专家。本领域技术人员将认识到,待满足的标准集可以取决于例如变体或正在被评估的变体和/或取决于影响患者的表型而改变。计算系统102可以在已经将评估指派给专家时通知专家。

在框1106中,从一个或多个合格的变体评估专家接收完成的评估报告。在实施例中,计算系统102通过网络106从专家接收评估报告。评估报告可以包括测试信息中所包括的一个或多个基因组变体的一个或多个临床意义评估。专家可能已准备了报告的全部或部分内容。

在框1108中,将评估报告返回给请求用户。

在实施例中,如上所述,可以由组织招募和认证专家。该组织可以建立专家网络,并收取查找者费用,用于将用户与适当的认证专家链接,以帮助他们进行所需的解释。例如,用户可以经由门户105将测试信息加载到系统中,并且用户可以例如经由提示请求解释测试信息的专家帮助。然后可以将测试指派给一个或多个合格的专家进行评估。在实施例中,专家自己进行分析。在另一实施例中,专家通过在系统的场境中共享测试信息和/或与用户通信来与用户并行进行分析。然后,专家可以向用户提供报告,包括由专家评估的测试信息中所包括的变体的评估。

将基因型与表型相关

随着向知识库提供更多的信息,可以确定数据中的大规模模式,将特定的基因签名链接到表型。图12是根据示例实施例的用于将基因型与表型相关联的方法1200的流程图。方法1200可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1200由计算系统102执行。

基因型或表型相关性可以包括将基因改变链接到表型。例如,这包括确定突变与特定疾病相关联或与对特定药物疗法的良好响应相关联。可以随时间和从多个组织收集测试信息用于分析。

在框1202中,接收包括患者样本的基因信息和表型信息的测试信息。在实施例中,计算系统102通过网络106从多个客户端104接收测试信息。可以根据本体来构造表型信息,使得可以进行在非构造知识收集中非常困难的互相关。患者样本中的每个患者可能需要已经提供在这种类型的分析中使用他们的测试信息的同意。患者同意也可以包括在所接收的测试信息中。

在方框1204中,建立基因或变体水平的基因改变和样品中的表型之间的相关性。在实施例中,计算系统102通过识别测试数据中的模式来建立路径、基因或变体水平基因改变之间的相关性。

在框1206中,基于统计学显著的相关性构建生物标记分类器。在实施例中,计算系统102构建生物标记分类器。在实施例中,一个或多个用户监督并通知生物标记分类器的构造。生物标记分类器可以被配置为将群体分层成多个子群体。例如,生物标记分类器可应用于每个患者的测试信息以确定患者所属的子群体。可以使用一个或多个以下技术来创建生物标记分类器。生物标记分类器可以使用统计方法(诸如序列核心关联测试(SKAT))开发。可替选地或另外地,可以使用诸如k-均值或分层聚类的聚类方法来创建生物标记分类器。这些技术可以在变体、基因和/或路径水平处应用以识别基因改变和所观察到的表型之间的统计学显著的关联。这些技术可用于跨多个数据集和群体从多个用户获取表型和基因型信息。对于具有适当同意的样品,系统可以识别跨由多个用户执行的多个研究中进行的元数据分析中具有统计学意义的基因型与表型关联。

在实施例中,子群体包括在治疗性疗法后对罕见不良事件更敏感的子群体和在治疗性疗法后对罕见不良事件不太敏感的子群体。在另一个实施例中,子群体包括可能是对治疗的反应者的子群体和不太可能是对治疗的反应者的子群体。在另一个实施例中,子群体包括更可能受疾病影响的个体的子群体和不太可能受疾病影响的个体子群体。在另一个实施例中,子群体是种族族群。本领域技术人员将认识到,群体可以分成与上述那些群体不同的附加群体或其它群体。

在实施例中,向用户提供具有分类结果的报告。报告还可以包括所使用的生物标记分类器、分类器的置信水平等。

图13描绘了包括用户的分类的示例报告1300。报告1300包括与所执行的测试、高级解释、可报告变体以及与可报告变体相关联的疗法有关的信息。尽管图13提供示例报告1300,本发明的实施例支持报告的其它类型或布置,其中与用户分类相关的任何信息可以被呈现给患者或其它用户,包括但不限于本文讨论的任何信息。

种族匹配控制

许多临床试验或研究参与者的多样性低于一般群体。另外,基因组变体可以通常在来自第一种族背景的个体中观察到,而不在来自第二种族背景的个体中观察到。因此,如果用户真正希望知道变体是否是给定患者中给定表型的病因(与良性多态性相反),则该用户必须针对不受感兴趣表型影响的多种个体评价变体,包括大量的个体,其理想地具有与患者相同的种族背景。这允许用户相对确信在患有罕见疾病的患者中所观察到的稀有变体实际上在该患者的种族人群中罕见(相对于在一般人群中罕见,而在患者的种族人群中相对常见)。图14是根据示例实施例的用于评估等位基因频率的方法1400的流程图。方法1400可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1400由计算系统102执行。

在框1402中,接收测试信息和测试信息中的一个或多个变体的意义分类。可以从一个或多个源(例如测试对象、实验室、护理提供者、保险公司等)接收测试信息和意义分类。

在框1404中,评估等位基因频率数据库中的一个或多个变体的等位基因频率。在实施例中,等位基因频率数据库位于储存器110中。

在实施例中,等位基因数据库具有至少最小数目的数据点。例如,可能需要数据库包括从至少10000个个体所导出的序列信息,包括来自至少10个不同群体的至少500个个体。

在实施例中,等位基因频率数据库包括多个子群体的一个或多个变体的频率。子群体可以包括,例如但不限于以下种族族群:高加索人、西班牙裔、印第安人、菲律宾人、波多黎各人、非洲人、太平洋岛民、美洲土著人、土耳其人、海湾\中东人、帕西人、中国人、马来西亚人、德系犹太人、新西兰人、韩国人、日本人或澳大利亚土著人。

在框1406中,向用户提供等位基因频率。在实施例中,计算系统102向用户提供等位基因频率。

在实施例中,从基于等位基因频率的规范中修改一个或多个变体的意义分类。分类可以被修改为更严重或更不严重。可以将所评估的变体的频率与群体中的一般频率进行比较。可以向用户提供当前测试信息和真实频率数据库的真实频率。将测试结果置于种族场境中导致归因于基因组变体的表型的病因校正。例如,对于在未患病群体中以太高而不能合理地解释患者的表型的等位基因频率存在的变体,变体的分类可以从更严重的分类修改为良性。

例如,考虑特定的BBS1变体,其是导致Bardet-Biedl综合征(BBS)的变体。BBS1是当突变时可引起称为Bardet-Biedl综合征的疾病的基因。基于频率,这种变体发生在0.2%的个体中,并且该疾病的流行率为约70000之一。从这个信息,最多的人预计要在一般人群中看到的这个变体在0.3%。这与0.2%的变体的观察一致。但是如果数据库不包括来自特定族群的统计学意义信息,那么将不清楚该变体是否在该种族族群中与一般群体具有相同的发生水平,或者该种族族群是否存在一些基因上特别的。例如,考虑系统在波多黎各人群中返回20%的变体观察的情况,其中一般人群的最大值预期为0.3%。它提出了以下问题,即变体在波多黎各人中是否更普遍,或者在数据库中是否没有足够的波多黎各人进行统计学上的重要分析。使用对来自多个种族族群的数据点具有特定要求的等位基因频率数据库,包括但不限于表示临床评估治疗这些问题的患者的种族族群的大量的有序个体。

对变体评分

基于序列的测试可能在单个患者中生成数百万个观察到的变体。确定哪些变体在患者的评估或疗法中最可能相关或重要的可能是复杂的。可以对变体评估进行评分以向用户提供反映与感兴趣的特定变体相关的信息的深度的置信度。图15是根据实施例的用于对变体打分的方法1500的流程图。方法1500可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1500由计算系统102执行。

在框1502中,接收患者的测试信息。在实施例中,计算系统102从一个或多个源接收测试信息。例如,可以从例如但不限于测试对象、实验室、护理提供者、保险公司等接收测试信息。

在框1504中,基于加权输入来生成测试信息中的一个或多个变体的置信度分数。在实施例中,计算系统102生成置信分数。加权的输入可以包括例如但不限于以下的任何组合:包括种族匹配个体的不受患者疾病表型影响的个体群体中的一个或多个变体的频率、一个或多个变体与知识库中的表型的关联、一个或多个变体的位点处的测序覆盖以及变体调用软件报告的一个或多个变体的调用置信度。给予每个输入的权重可以使用预定值、基于输入的强度所调整的值或其任何组合来设置。例如,如果频率与疾病相关的高置信度值相关联,则不受患者疾病表型影响的个体群体中的一个或多个变体的频率(包括种族匹配的个体)可以是决定性的。如上所述,如果变体非常常见,特别是在患者的种族子群体中,则该变体是所述患者中罕见疾病的病因的可能性低。

知识库中一个或多个变体与表型的关联可以包括知识库中文献中变体与表型相关的频率的度量。一个或多个变体的位点处的测序覆盖可以指变体已经被取样多少次的测量,其中变体仅是基因组中其它核苷酸的一部分。例如,在1X覆盖中,仅存在该变体存在的一个数据点,这可以指示极差的质量。另一方面,随着覆盖增加(例如,100X覆盖、1000X覆盖或3000X覆盖),可以越来越多地依赖结果。

在实施例中,可以通过对齐和/或变体调用软件报告一个或多个变体的调用置信度,其通常生成由软件执行的分析的可信赖性的质量分数。例如,对齐和变体调用软件可以是CLC Bio Genomics Workbench。作为另一个实例,对齐和变体调用软件可以是BWA/GATK(Burrows-Wheeler Aligner/Genome Analysis Toolkit)。

在实施例中,可以根据决策树对输入进行加权。在一些情况下,决策树可以防止输入对置信分数做出贡献。

提供变体分类警报

当与特定基因组变体有关的信息在知识库中被添加、更新或改变时,例如关于临床评估意义类别、临床试验信息、疗法信息和/或文献,用户可能希望接收警报。图16是根据实施例的用于提供变体分类警报的方法1600的流程图。方法1600可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1600由计算系统102执行。

在框1602中,接收包括一个或多个基因组变体的测试信息。在实施例中,计算系统102从一个或多个源接收测试信息。例如,可以从例如但不限于测试对象、实验室、护理提供者、保险公司等接收测试信息。

在框1604中,从用户接收对警报报告的请求。警报报告可以识别用户感兴趣的特定基因组变体。对于警报报告的请求可以由计算系统102连同来自相同或不同用户的其它警报报告请求一起存储。

在框1606中,响应于检测知识库中的改变而生成警报报告,所述改变与一个或多个基因组变体相对应。在实施例中,计算系统102监视储存器110的知识库中的信息,并且当检测到添加、改变或更新事件时生成警报报告。

在实施例中,可以以任何间隔生成报告。例如,可以以至少每两年一次的频率或以每天一次的频率或以每周一次的频率或以每月一次的频率或以每年一次的频率生成警报报告。在实施例中,当与一个或多个感兴趣变体相关的知识发生显著改变时,可以生成报告。在实施例中,可以基于与用户的测试信息中所包括的表型相关联的变体来推断用户感兴趣的变体。

在实施例中,警报报告总结了对一个或多个变体的分类的改变,因为先前的变体分类作为临床报告的一部分被生成或以其它方式提供给第三方。

在实施例中,例如通过计算系统102将警报报告提供给用户。提供警报报告可以指促进向用户递送警报报告的任何动作。例如,提供警报报告可以通过通知用户已经生成警报报告,向用户电子地发送警报报告,在计算系统102处向用户提供警报报告,提醒用户访问患者门户或其任何组合来执行。

图17描绘了示例警报报告1700。警报报告1700包括变体标识符、变体的先前分类、变体的新的或经更新的分类、经更新的日期以及导致分类改变的证据的摘要。尽管图17提供了示例警报报告1700,但是本发明的实施例支持警报报告的其它类型或布置,其中与变体改变相关的任何信息可以被呈现给患者或其它用户,包括但不限于所讨论的任何信息。

患者门户

大部分之前的讨论涉及其中用户是医生、研究者、实验室技术人员、制药公司等的示例。然而,患者本身可能对访问存储在知识库中的信息感兴趣。图18是根据实施例的用于提供患者门户的方法1800的流程图。方法1800可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法1800由计算系统102执行。

在框1802中,例如由计算系统102接收患者的测试信息。测试信息可以被存储在知识库中。测试信息可以从任何源所接收,例如患者或授权的提供商。

在框1804中,向用户提供通过门户对测试信息的访问。在实施例中,计算系统102通知患者或授权的提供者已经准予对测试信息的访问。在实施例中,用户可以是访问门户的任何一个,诸如患者、提供者、患者的家庭成员、朋友、代理或代表、医生、保险公司或其任何组合。

在框1806中,通过门户从用户接收同意以使用测试信息。同意可以是使用测试信息用于分析、疾病研究、临床试验匹配、治疗性研究、治疗性开发、疗效研究、公开发布、向请求方发布或任何目的中的至少一个。在实施例中,计算系统102从用户接收同意。

在实施例中,在被提供对门户的访问之前,用户被认证。认证可以包括例如登录到系统中。

在实施例中,与用户相关联的测试信息包括基因信息、在生成测试信息之后变得可用的支持注释等等。该信息可以在其在门户上可用时被提供给用户。例如,该实施例可以被提供作为门户上的警报报告。

可以基于满足条件来提供对门户的访问。在一个实施例中,通过支付订阅费来管理对门户的访问。在另一个实施例中,对门户的访问基于对于与用户相关联的测试信息的使用条款的同意。在另一个实施例中,对门户的访问基于同意基于测试信息接收目标广告或提议。在另一个实施例中,对门户的访问基于同意释放基于患者的测试信息所计算的匿名概要统计量,诸如一般群体和/或特定种族子群体内的等位基因频率信息。

用户与门户的交互可以用于确定关于用户的信息。在实施例中,监视用户对门户的访问。可以基于监视访问来确定用户将有资格在临床试验中被招募。例如,用户对门户的访问可以指示关于例如但不限于用户的健康状态、用户的位置、用户的可用性以及用户对这种信息的兴趣的某些事情。这种类型的状态信息可能不是从门户以外的源容易地获得的,并且除了其它因素之外,可以是用于在临床试验中被招募的资格。用户还可以将疗法历史和基因型信息上载到门户中,其可以用于将用户与可能有益于用户的临床试验匹配。

图19描绘了示例患者门户1900。在实施例中,患者门户1900由计算系统102提供。患者门户1900显示与患者相关的测试信息。例如,患者门户1900示出患者是否具有FDA批准的靶向治疗的相关EGFR突变。患者门户1900还显示几种药物治疗,包括疗法、疗法成功的表征和与疗法相关联的指示。患者门户1900还显示与基因组变体相关联的临床试验。

虽然图19提供了患者门户1900的示例,但是本发明的实施例支持患者门户的其它类型或布置,其中与患者相关的任何信息可以被呈现给患者或其它用户,包括但不限于所讨论的任何信息。

变体分类规则改进

图20是根据示例实施例的用于改进变体分类规则的方法2000的流程图。方法2000可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法2000由计算系统102执行。

在框2002中,接收患者的测试信息。在实施例中,计算系统102接收患者的测试信息。可以从一个或多个源接收测试信息。例如,可以从例如但不限于测试对象、实验室、护理提供者、保险公司等接收测试信息。

在框2004中,接收对测试信息的一个或多个变体的多个专家变体评估。可以从一个或多个源接收专家变体评估,所述源包括例如但不限于实验室、护理提供者、保险公司、研究机构等。专家变体评估可以使用任何评分逻辑来评估变体,例如用于变体评估的美国医学基因学学院(ACMG)规则、本文讨论的任何评分逻辑、任何其它评分逻辑或其任何组合。在实施例中,专家变体评估是变体的人工评估。

在框2006中,接收用于变体评估的评分逻辑的选择。用于变体评估的评分逻辑可以是任何类型的评分逻辑,例如变体评估的ACMG规则、本文讨论的任何评分逻辑、任何其它评分逻辑或其任何组合。在实施例中,事先选择评分逻辑。在实施例中,基于特定测试提供来选择评分逻辑。

在框2008中,根据评分逻辑将多个专家变体评估与一个或多个变体的评分进行比较。

在框2010中,将比较的结果提供给用户。比较的结果可以包括多个专家变体评估与根据评分逻辑的评分之间的相关程度。这种相关程度可以证明评分逻辑与专家评估的相似或不相似。该结果还可以用于反馈回路中,以使用例如标准机器学习过程来改进计算系统102的评分逻辑。

将等位基因计数或频率入池

随着变体分析技术变得更加复杂,它们越来越依赖于更大数目和更多样化的变体样品数据集,以弄清变体和表型之间的有意义的关系。然而,变体数据的传统源受到样本集太小、种族偏见或两者的困扰。例如,Exome Variant Server(EVS)项目和1,000Genomes项目等项目目前的基因组信息编号为数千,但不超过10000。数据集在种族上偏向白种人,其中族裔子群体(例如波多黎各)的数据集太小,无法识别这些子群体中的常见多态性。更大和更多样的等位基因统计量数据库,例如已入池的频率和观察计数,使得更容易区分潜在的罕见疾病引起的变体与良性变体。因此,这样的数据库可以有益于基于序列的测试的临床解释,以及具有例如识别新的致病的变体和用于诊断和患者分层的基因生物标记的目标的翻译研究。传统数据库的问题部分是由于共享人类基因信息的限制和不愿意引起的。由于公共变体数据的传统源的限制,导致使用该数据的任何分析具有在作为在公共序列数据库中代表性不足的种族群体的一部分的患者中的错误解释变体的高风险。

本文所述的技术通过组合来自更宽范围的同意样品的等位基因统计量来克服这些缺陷,以提供增强的等位基因计数或频率覆盖。在变体分析工作流程期间收集数据使得研究人员和临床实验室更方便地以有用的方式共享信息,因此更大量的样品成为用于解释基因型的内容本身。此外,通过提供用于用户共享匿名、已入池的等位基因统计量(诸如计数或频率)而不是更完整的基因组信息的机制,实施例可以使用户更舒适地共享基因组信息。用户通常不太舒服地共享完整的基因组信息和更舒适地共享已入池的和匿名的基因组信息。实施例还向用户提供共享基因组信息的激励,其被设计为克服囤积数据而不回馈社区的倾向。例如,如果该用户还同意“贡献”并允许其自己的基因组数据集对池做出贡献,则系统可以仅许可用已入池的等位基因统计量来注释给定用户的基因组数据集,由此增强该用户以及其数据集“选择加入”或同意参与社区的所有其它用户的发现能力。利用来自用户社区的数据集的组合提供关于变体分布(诸如等位基因计数或频率)的更完整和代表性的信息。这使得能够增强分析基因信息的能力,诸如更有效的基于临床序列的测试解释和更快、更准确地识别致病变体。此外,使得能够以已入池的水平共享减轻了基于个体患者对池的贡献将个人识别个体患者的风险。因为这种共享水平风险较低,用户更舒适,更有可能共享他们的基因信息。在一个实施例中,已入池的变体统计量被分成子池,例如以样品表型或种族/祖先为依据。在该实施例中,分析对波多黎各人血统的患者的基于序列的测试的用户可以被提供有等位基因统计量,其示出虽然感兴趣的特定变体在全球人群中是极其罕见的,但事实上在波多黎各人口中非常常见,因此不太可能在这个病人中致病。

如本文所使用的,术语“匿名的”是指由于其性质而不是个人可识别的并且因此是匿名的信息。本领域普通技术人员将认识到,来自没有个人可识别信息的多个个体的等位基因统计量的池是匿名或本质上匿名的,并且尽管可以采取附加步骤来确保个人隐私,从个体池中计算等位基因统计量的行为本身能够产生匿名的等位基因统计量。

图21是根据示例实施例的用于构建等位基因计数的社区数据库的方法2100的流程图。方法2100可以由包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上运行的指令)或其组合的处理逻辑执行。在实施例中,方法2100由计算系统102执行。

在框2102处,接收从不同用户所生成的样本所导出的人类变体数据集。在实施例中,计算系统102从多个用户接收人类变体数据集。样品可以从相对大量(诸如10000或更多)的生物样品导出。此外,样本可以来自多种(诸如10个或更多)不同的用户。大量的样品和多种源导致上述许多益处。不同的用户可以包括已经从参与者接受同意以从其共享其变体分析或已入池的统计量的实验室或项目。

在实施例中,在变体数据集的解释工作流期间收集和同意变体数据集。例如,当实验室对样品执行测试时,实验室可以在过程期间将结果传送到计算系统102,在该计算系统102处,可以使用工具来收集、处理或解释结果。在另一个实施例中,可以从用户前端接收同意,或者当他们最感兴趣时在查看分析时查看已入池的等位基因统计量。

将数据提供给池的用户已经同意,主动地或被动地与其它用户共享已入池的等位基因计数信息。主动同意可以包括例如用户通过呈现在界面上的对话框的明确同意,接受包括同意的许可协议等。被动同意可以包括例如使用工具或工作流,特别是当用户知道该工具的使用将被视为同意与其它用户共享已入池的等位基因计数信息。此外,可以在变体分析工作流程中的一个或多个阶段处获取同意。例如,在新用户注册使用在线工具时,可以向新用户呈现同意的选项,在当现有用户登录在线工具时可以向现有用户呈现同意的选项作为使用或比较已入池的等位基因数据的条件或其任何组合。

可以向用户提供一个或多个激励,用于同意或提供他们的信息用于在已入池的数据中共享。例如,如上所述,同意可以用作使用或比较已入池的数据的条件。另一个激励可以是访问一个或多个池的计数或频率。另一个激励可以是访问社区已入池的等位基因频率或计数以用于解释变体数据。可以向用户授予对池信息的更大访问,以返回用于提交更高质量或数量的样本。这些非限制性示例激励是为了说明的目的而呈现的,但是应当理解,可以使用任何其它类型的激励。

在实施例中,所接收的人类变体数据集被存储在根据诸如上面描述的本体而构造的患者测试信息的知识库中。

在框2104处,确定其中样品或变体中的一个或多个对等位基因库做出贡献。在实施例中,计算系统102通过搜索知识库来确定一个或多个样本对等位基因池做出贡献。可以基于与给定样品相对应的患者信息是否满足特定池的一个或多个要求或包括标准来做出确定。可以例如基于种族、表型等来定义池。如果样品的患者信息被确定为满足池要求或包括标准,则可以将样品添加到等位基因池。

一个或多个样品或变体或用户数据集也可以被确定为不对等位基因池做出贡献,并且因此可以基于排除标准从池中排除。样品的排除或包括标准可以包括例如样品的基因组覆盖的宽度、样品的覆盖深度、样品的质量、发现样品的序列的质量、变体调用质量、与样品相关联的表型、样品冗余、变体计数、用于数据源的信任度量、社区反馈、包括良好建立的致病的变体、人工或自动QC或其任何组合。基于变体调用质量、读取深度或与常见技术错误或失败模式、人工或自动QC或其任何组合的已知关联,可以排除或包括样品数据集中的变体。当使用从多个源收集的数据时,这种质量控制是有益的,因为它有助于防止重复样品被多次计数,排除不正确称呼的变体,并且防止社区依赖于质量不足的样品。用于包括和/或排除的标准可以用于定义池,并且可以随时间调整标准以修改池。

在实施例中,可以注释一个或多个样品的种族或疾病状态。可以通过使用主成分分析(PCA)、用户提供的注释、基于生物标记的分析或其任何组合中的至少一个来注释样品。例如,用户可以提供样本的种族的注释,并且PCA可以用于验证注释,反之亦然。在实施例中,样品的可能种族可以用作建立用于特定种族子群体的等位基因频率数据库的包括标准。在另一个实施例中,样品的注释或推断的疾病状态可用于建立等位基因频率数据库,其具有不受基因疾病或其它感兴趣的表型影响的样品。这些特征可以组合以使得能够构建社区等位基因频率数据库,其特别适合于过滤出在特定种族背景的患者中不太可能是罕见基因疾病的病因的常见变体,因为这些变体通常在与感兴趣的患者相同种族人群的健康成员中被观察到。在实施例中,基于来自已入池的、匿名的等位基因统计量知识库(诸如频率、所估算的频率或计数)的此证据,可以在感兴趣的患者中将这些变体分类为“良性”或“可能良性”。

在框2106处,计算等位基因统计量,例如在池内已经观察到给定变体的次数。在实施例中,计算系统102计算在池内观察到给定变体的次数。可以通过一个或多个样品的种族或表型、上述讨论的包括或排除标准或其任何组合中的至少一个来定义库。此外,可以基于在池中已经观察到变体的次数生成等位基因频率。等位基因频率可以是给定变体的观察到的发生率的数目与据信具有测量给定变体的潜力的池中样品的总数的比率。可以基于变体覆盖来估算该比率中的样本的总数。例如,估算可以包括通过检测通常发生在样品中的区域中的其它变体来确定是否对感兴趣的基因组的该部分的测序信息进行取样。在框2106中还可以计算其它等位基因统计量。

得到的等位基因统计量可以以一个或多个方式使用。统计量可以提供给贡献样本的用户。统计量可以在变体过滤中使用或者通过变体分类逻辑(诸如本文讨论的那些)使用。可以经由基于网络的资源(诸如本文所描述的工具)向用户提供对统计信息的访问。

一些个人可能不同意将他们的信息或他们的信息的至少一部分添加到池中。然而,部分数据可能降低池的完整性,因为不能调查与关于用户的其它信息的相关性。在实施例中,可能需要用户提供与一个或多个变体相关的个人的整个数据集,或根本不提交数据集。也就是说,在这样的实施例中,不允许提交部分数据集。这允许用户保持某些个人或其信息被提供给池,同时保持对池有贡献的数据集的完整性。

计算系统示例

可以例如使用一个或多个计算机系统(诸如图22所示的计算机系统2200)来实现各种实施例。计算机系统2200可以是能够执行本文所描述的功能的任何计算机。

计算机系统2200包括一个或多个处理器(也称为中央处理单元或CPU),诸如处理器2204。处理器2204被连接到通信基础设施或总线2206。

一个或多个处理器2204可以各自是图形处理单元(GPU)。在实施例中,GPU是处理器,其是被设计为处理数学密集型应用的专用电子电路。GPU可具有对大数据块的并行处理有效的并行结构,诸如计算机图形应用、图像、视频等常见的数学密集数据。

计算机系统2200还包括通过用户输入/输出接口2202与通信基础设施2206通信的用户输入/输出设备2203,诸如监视器、键盘、指针设备等。

计算机系统2200还包括主存储或主存储器2208,诸如随机存取存储器(RAM)。主存储器2208可以包括一个或多个级别的高速缓存。主存储器2208中存储有控制逻辑(即,计算机软件)和/或数据。

计算机系统2200还可以包括一个或多个辅助存储设备或存储器2210。辅助存储器2210可以包括例如硬盘驱动器2212和/或可移动存储设备或驱动器2214。可移动存储驱动器2214可以是软盘驱动器、磁带驱动器、光盘驱动器、光学存储设备、磁带备份设备和/或任何其它存储设备/驱动器。

可移动存储驱动器2214可以与可移除存储单元2218交互。可移除存储单元2218包括在其上存储有计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移除存储单元2218可以是软盘、磁带、光盘、DVD、光存储盘和/或任何其它计算机数据存储设备。可移动存储驱动器2214以公知的方式从可移除存储单元2218读取和/或写入可移除存储单元2218。

根据示例性实施例,辅助存储器2210可以包括用于允许计算机程序和/或其它指令和/或数据被计算机系统2200访问的其它装置、工具或其它方法。这样的装置、工具或其它方法可以包括例如可移除存储单元2222和接口2220。可移除存储单元2222和接口2220的示例可以包括程序盒和盒接口(诸如在视频游戏设备中找到的)、可移动存储器芯片(诸如EPROM或PROM)和相关联的插座、存储棒和USB端口、存储卡和相关联的存储卡插槽和/或任何其它可移除存储单元和相关联的接口。

计算机系统2200可以进一步包括通信或网络接口2224。通信接口2224使计算机系统2200能够与远程设备、远程网络、远程实体等的任何组合(单独地和共同地由附图标记2228引用)通信并交互。例如,通信接口2224可以允许计算机系统2200通过通信路径2226与远程设备2228通信,通信路径2226可以是有线和/或无线的,并且可以包括LAN、WAN、互联网等的任何组合。控制逻辑和/或数据可以经由通信路径2226被传送到计算机系统2200和从计算机系统2200传送。

在实施例中,包括在其上存储有控制逻辑(软件)的有形计算机可用或可读介质的有形装置或制品在本文中也被称为计算机程序产品或程序存储设备。这包括但不限于计算机系统2200、主存储器2208、辅助存储器2210以及可移除存储单元2218和2222以及实现前述的任何组合的有形产品。这样的控制逻辑当由一个或多个数据处理设备(诸如计算机系统2200)执行时,使得这样的数据处理设备如本文所描述的那样操作。

基于本公开内容中所包括的教导,对于相关领域的技术人员来说,如何使用数据处理设备,计算机系统和/或除此之外的计算机架构来实现和使用本发明的实施例是显而易见的如图22所示。具体地,实施例可以用除了本文所描述的那些之外的软件,硬件和/或操作系统实施方式来操作。

结论

应当理解,具体实施方式部分而不是

技术实现要素:
和摘要部分(如果有的话)旨在用于解释权利要求。发明内容和摘要部分(如果有的话)可以提出本发明人所设想的本发明的一个或多个但不是所有的示例性实施例,并且因此不旨在以任何方式限制本发明或所附权利要求。

虽然本文已经参照示例性领域和应用的示例性实施例描述了本发明,但是应当理解,本发明不限于此。其它实施例及其修改是可能的,并且在本发明的范围和精神内。例如,并且不限制本段落的一般性,实施例不限于图中所示和/或本文所描述的软件、硬件、固件和/或实体。此外,实施例(无论是否在本文中明确描述)对于本文所描述的示例之外的领域和应用具有重要的效用。

在此已经借助于示出特定功能及其关系的实施方式的功能构建块描述了实施例。为了方便描述,本文已经任意地定义了这些功能构建块的边界。可以定义替选边界,只要适当地执行指定的功能和关系(或其等同物)即可。此外,替选实施例可以使用与本文所描述的顺序不同的顺序来执行功能块、步骤、操作、方法等。

本文对“一个实施例”、“实施例”、“示例实施例”或类似短语的引用指示所描述的实施例可包括特定特征、结构或特性,但每个实施例可不必包括特定特征、结构或特性。此外,这样的短语不一定指的是相同的实施例。此外,当结合实施例描述特定特征、结构或特性时,将在相关领域的技术人员的知识范围内将这样的特征、结构或特性并入其它实施例中,无论是否明确提及或描述。

本发明的宽度和范围不应由任何上述示例性实施例限制,而是应仅根据所附权利要求及其等同物来限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1