发现路由系统和引擎的制作方法_3

文档序号：9713579阅读：来源：国知局

的‘正常’状态可选自包括出版标准、自动标准、专家输入的先验知识，并且代表性的‘正常’状态也可被更新以反映‘正常’数值范围的演变的理解。在一些实施例中，限定符可至少部分通过分析模块145而生成和分配。当接收/生成了描述符-数值对所属的数据集时，或者当数据集正在由用于识别异常的分析模块145处理时，对描述符-数值对的限定符的分配可发生。限定符可被存储在知识数据库105中或被存储在与知识数据库分离的数据存储器中。限定符可包括单个正常值或单个正常状态、多个正常值或多个正常状态、或一系列正常值或一系列正常状态。
[0050]分析模块145被编程为遍历存储在知识数据库105中数据集的描述符-数值对、通过将在描述符数值对中的数值与它们对应的限定符进行比较来分析描述符数值对、并且基于该分析来确定描述符数值对是异常的。这些实施例中的一些中的分析模块145基于描述符-数值对的数值偏离限定符的程度来确定描述符-数值对是否正常或异常。分析模块145的不同实施例使用不同的方案来确定数据集中的异常。在一些实施例中，分析模块145应用严格的要求，其中当描述符-数值对的数值/状态不是正常数值/状态、不是多个正常数值/状态中的一种、或在多个正常数值/状态的范围之外时，描述符-数值对是异常的。在其它实施例中，分析模块145应用灵活要求，其中当描述符-数值对的数值/状态偏离正常数值/状态、多个正常数值/状态、多个正常数值/状态的范围的端点预定阈值时，描述符-数值对是异常的。后一种方案具有的优点是:使能发现路由系统100的管理员、或一个或更多个专家订户通过调整与限定符相关联的该阈值来微调异常判定。
[0051 ]针对每个描述符的阈值通过外部标准(例如:先验标准、统计确定标准、由算法衍生的标准、与历史值的比较、与边界条件的比较、预测值、标准数据库、在研究论文中出版的标准、用户定义的标准、或来自这样的外部资源的标准)而被设定。可替换地或组合地或一致地，内部标准可以在异常识别中被采用并可包括:在知识数据库105中的数据集110、120和/或130、通过外推法或这样的数据集的其它数学运算计算的标准、对已知正常或不正常条件建模数据集等。在其它实施例中，描述符的阈值可产生自置信因子的分析、多变量分析或机器学习。异常被定义为在描述符-数值对内的数值自对应的限定符的偏差。在异常识别后，分析模块145标记异常数据集或引导异常数据集以由交叉验证模块175在其上进行操作。
[0052 ]异常识别可使用涉及核酸(DNA、cDNA、RNA、mRNA、tRNA、s i RNA、yRNA、ncRNA、f RNA、rRNA、核酶等)的示例来说明。对于核酸试样，‘正常’的测量可包括:核苷酸或序列的识别、核苷酸或序列的同源性、百分比同源性、产物多肽、酶活性或其它细胞过程、或数值(例如，序列长度、复制数目、蛋白质沉降系数、核酶活性)。关于多肽，‘正常’的测量可包括:序列、结构化且折叠结构、电荷分布、结构化且折叠预测、或多肽衍生物。这些测量相对于复制数目、链(strand)断裂、抽象以及环形染色体外的核酸优选地被正常化。另外优选的是，分析模块145被编程为将反馈并入至所执行的分析中以便改进异常识别，例如通过实施机器学习协议。这种分析模块可使用首先通过规范(normal)并且使用已知的其他相关数据集之间的关联性评估数据集、生成可然后被用于再评估数据集及用在随后的数据集的评估中的适应性规范。因此，应该意识到的是，分析模块145可被编程为识别相对简单发现的异常(并且其中异常基于先前已知参数和/或统计确定参数)。
[0053]图1也描绘了交叉验证模块175，交叉验证模块175信息化地耦合至发现路由管理模块150，并被进一步编程用于接收来自发现路由管理模块150的数据并将数据传输至发现路由管理模块150。交叉验证模块175被进一步编程用于在接收自发现路由管理模块150的数据上进行操作。在一个实施例中，发现路由管理模块150被编程为以将先验知识165传送至交叉验证模块175。先验知识165包括通知对感兴趣的条件或特征显著的异常交叉验证的历史数据、论文、出版物、期刊、参考文本、实验结果、实验室报告、数据分析、分析报告以及数据的其他资源。在一些实施例中，交叉验证模块175可经由网络接口 170从网站、在线论文、第三方数据库、图书馆数据库等中检索先验知识165。
[0054]相比于由分析模块145进行的异常检测的潜在的方便和简化，交叉验证模块175在置于主题专家的手中时生成具有导致新发现的潜力的异常集而改进异常识别。经校验具有导致新发现的潜力的异常被指定为显著异常。从另一个角度来看，交叉验证模块175作用为识别与任何数目的先前未知或未确定的感兴趣的条件或特征有关的进一步的属性。更优选地是，这种属性将使用不同于那些由分析模块145使用的参数的参数。
[0055]在一些实施例中，一些实施例的交叉验证模块175被编程为首先识别与异常相关联的可能条件。可能的条件可通过从知识数据库105或经由网络接口 170从外部资源中遍历先验知识165而被识别，网络接口 170包括网站、论文、出版物、医疗期刊等。先验知识可提供与一个或更多个可能的条件相关联的异常(如，疾病等)的建议或线索。当识别到可能的相关联的条件时，交叉验证模块175交叉参考在知识数据库105中的附加数据(如，遍历发现了异常的相同数据集(如，数据集120))，以确定是否存在可证明(verify)相关联的条件的附加数据。
[0056]例如，关于在图1中描绘交叉验证模块175和类似的结构，如果患者的单个核苷酸的变异被确定为突变，该突变是无害的无表型突变还是反而涉及疾病形成可通过症状的交叉分析、血液测试结果、尿检、活体组织切片检查、X-射线、MR1、或其它与同一患者相关联的实验室测试来被校验。
[0057]例如，如果结合VEGF的上调发现了突变，则肿瘤形成可能正在进行中，并且突变不太可能是无表型的。可用于交叉验证突变的其它因素包括患者表现型和/或基因型、父系/母系的表现型和/或基因型、家族史、亲缘树、或群落特性的检查。关于患者的信息可从其它资源中的电子医疗记录中访问，电子医疗记录可被存储在知识数据库105、其它数据库中，或者可远程地被访问。
[0058]在进一步考虑的实施例中，数据集的重新分析(denovo analysis)可揭示导致内部生成的预测性规范的关联性，预测性规范可进一步增强交叉验证模块175的异常识别提取功能。例如，在基因组学数据、计算机程序及数据库(例如在基因组学模型上使用数据整合的路径识别算法(PARADIGM)数据库)的分析中，其将在Charles J.Vaske等人在2011年4月29日提交的国际公开W02011/139345和Charles J.Vaske等人在2011年10月26日提交的国际公开W0 2013/062505中进一步被描述，其全部内容通过引用并入在此。PARADIGM可被用来阐明在基因组学数据集中编码的路径之间的机制关系。预测性规范可然后通过外部标准或内部控制(例如:先验知识、期刊、标准医疗实践、其他数据库以及其他主题相关的参考)来被验证。
[0059]甚至，在证明异常时，当异常被良好地表征(并因此，不指定为显著异常)时将特别异常的数据集路由至订户是不必要的。例如，如果异常通过内部控制、外部控制、或用于异常的其它已知标准被证明，则异常的数据集将不被验证为显著异常，并且由于用于发现的时机不存在，所以数据集将不与订户相关联。然而，如果交叉验证揭示例如疾病状况与异常相关联，并且疾病条件和异常之间的底层连接是未知的，那么交叉验证模块175确认异常的显著性，并且异常数据集被路由至用于发现的任何数目的订户。
[0060]单向数据集例如数据集120可被注释为表示显著性使用D(m，nu，X1)格式。分析模块145可使用相对n’s、m’s以及x’s的矩阵的三个参数中的任何一个指示示显著性。当来自数据集120的异常的描述符-数值对例如描述符121和数值122被识别时，描述符-数值对被表征为感兴趣的D’(m，mi，xi)。感兴趣的描述符-数值对D’(m，mi，xi)然后相对于所有其它的n’s、m’s以及x’s，即，n2-N、m2-N、X2-N的矩阵运行。用于检验的数据集本身可以是正常的、感兴趣的、不感兴趣的。如果对于在父数据集(数据集120)中的至少一个附加参数发现异常，贝似(m，mi，xi)的感兴趣的状态可被证明。为了说明异常证明，当m在D(m，mi，xi)之内被发现异常时，如果也发现m和/SX1异常，则将确认感兴趣的数据集D’(m，mi，X1)。进一步，如果异常的m和m/xi之间的关联性未知，那么感兴趣的数据集被验证为显著的并被转发至可对发现关联性采取适当措施的主题专家。
[0061]交叉验证模块175的另一个目的是确认关于偏差的标记的有效性。交叉验证模块175可被编程为通过执行与第二数据集、先验标准、统计确定的标准、由算法衍生的标准、历史值、边界条件、预测值或用户定义的标准的比较，来交叉验证异常的描述符-数值对。另一个可能的可替换方案可以是执行置信因子的分析、多变量分析或机器学习。可以有利的是，使用不同于最初识别异常步骤中采用的协议的协议来验证异常的描述符-数值对。
[0062]除了验证描述符-数值对的显著性，交叉验证模块175的功能可进一步被扩展以包括接收来自订户的解决方案并分析订户的解决方案。
[0063]在图1中描绘的实施例中，订阅模块155信息化地耦合至发现路由管理模块150，并被进一步编程为接收来自发现路由管理模块150的数据并且将数据传输至发现路由管理模块150。订阅模块155被进一步编程以在接收自发现路由管理模块150的数据上进行操作。订阅模块155也信息化地耦合至订阅接口模块160，并且被编程为将数据传输或引导至订阅接口模块160。在优选的实施例中，在订阅模块155已经在数据上进行操作之后，订阅模块155将数据传输至订阅接口模块160。
[0064]在图1中，订阅接口160信息化地耦合至订阅模块155和多个专家订户两者。专家订户是具有在与存储在知识数据库105中的数据集有关的特定领域中专长的用户。专家订户可以是人、集体或组织。如在此所描绘的，示例专家订户包括订户集体180、机构订户185以及个体订户190。订阅接口模块160被编程为接收来自订阅模块155、订户集体180、机构订户185以及个体订户190的数据并且将数据发送至订阅模块155、订户集体180、机构订户185以及个体订户190。
[0065]在本发明主题的一个实施例中，订阅模块155和订阅接口模块160用于订阅专家订户并将每个专家订户与表明一个或更多个专长的标识符相对应。在图1描绘的实施例中，专家订户包括订户集体180、机构订户185以及个体订户190。然而，本发明主题将多种多样的专家考虑为订户。专家订户可以是人类专家或基于机器的专家。例如，个人、一组人、企业实体、政府机构、出版商或贸易协会，所有的这些可作为具有在投身的特定领域中的专长并订阅以接收来自与投身的领域相关联的发现路由系统的问题的主题专家。也应该意识到的是，专家订户可在单个位置中共同协作或被地理地分开(如，不同ZIP编

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6