发现路由系统和引擎的制作方法

文档序号:9713579阅读:178来源:国知局
发现路由系统和引擎的制作方法
【专利说明】发现路由系统和引擎
[0001 ]相关申请的交叉参考
[0002]本申请要求在2013年7月26日提交的美国申请61/859,137和在2014年7月28日提交的美国专利申请14/445,025的优先权益。本文中所讨论的这个和所有其它外在材料的全部内容并入本文以供参考方式。其中在并入的参考中的术语的定义或使用与本文中提供的该术语的定义不一致或相反时,应用本文中提供的该术语的定义,而不应用在参考中的该术语的定义。
技术领域
[0003]本发明的领域是对高容量数据的计算分析,具体地,其涉及用于医疗数据的发现路由系统和方法。
【背景技术】
[0004]背景描述包括可对理解本发明有用的信息。并非承认本文中提供的任何信息是现有技术或与目前所要求的发明相关,或具体地或暗示地(implicitly)参考的任何出版物是现有技术。
[0005]随着众多“组学”科学的出现:基因组学、蛋白质组学、糖组学、免疫组学、或脑组学,例如,大量数据比以往任何时候更可用,使得分析及甚至相关信息的检测势不可挡。例如,基因组学数据的数量在被排序为统计上显著程度时可易于超过若干太字节(teratype)的使任何感兴趣的非自动化分析成为不可能进行的信息。为了克服这种问题,自动化系统可用于通过将数据与参考阈值进行比较来识别异常。虽然这种自动化系统将识别例如假阳性和假阴性的异常值,在大部分情况下,异常值的识别对于一个专家而言仍然太频繁而无法检查。例如在基因组学内,一个突变可以是引起疾病基因型的指示符或其可以是相对常见的无表型突变。
[0006]为了减少相关信息的数量,至少部分自动化系统可集中于单人的疾病或失调以得到对于临床医生可管理的数据集。例如,如在美国专利申请公开2012/0008838中所描述的,在皮肤上的痣可以是良性或恶性的并且可以由患者成像。在此,用户注册并将他们皮肤的图像提供至系统,系统然后自动分析黑色素瘤的图像特点。产生置信值,并且如果该值超过50%,那么用户可接收咨询医生的建议或在用户的地理位置中的一个或更多个专科医生的推荐。虽然这种系统提供相对稳健的分析和专家后续处理,但是各种缺点仍然存在。最显著的是,这种系统的诊断范围局限于特定的疾病,并且在这种疾病的情况下,其中最具确定性的特性是已知的。
[0007]在部分自动化分析的另一个示例(参见美国专利申请公开2004/0122790)中,数据集经由操作算法的计算机辅助的数据被分析以生成识别感兴趣的特征的结果数据集。然后,基于来自人类专家的输入而监控在结果数据集中的变化。在一个实施例中,算法包括访问从医疗成像系统中衍生的图像数据、以及来自综合知识库的补充数据,所述综合知识库包括来自多个可控制和可规定的资源的临床数据和非临床数据。尽管这种方法通过从人类输入的多个资源中综合数据来改进数据分析,但是有限资源仍然需要提取分析法则。更进一步,以及如上面已经指出,这种系统通常局限于条件和发现有限集。
[0008]自动化分析也因非成像应用(例如,在美国专利申请公开2008/0091471中讨论的)而熟知。‘471系统评估在患者群体中个体的免疫状态,通过建立包括多个信息记录的数据库,每个信息记录代表在人群中个人免疫状态、处理在数据库中的信息以发现与在所述患者人群中个体免疫状态有关的趋势或模式、并使用该趋势或模式作为部分健康保健有关的决策程序。然后,在数据库中变量或字段之间生成了关联性,并且对于每个关联性,生成了可解释关联性的假设。附加步骤可包括:自动反驳、支持或通过进一步数据库处理没有充分数据以分析每个假设的陈述,并且将关联性、它们相关联的假设及决定报告给用户。虽然'471分析有利的改进了在相对大数据集中的模式发现,但是各种困难仍然存在。一个示例困难包括,该分析一般局限于免疫学分析。另一个困难是,将关联性和假设报告给缺少将每个报告与有资格以及时的方式采取措施的特定用户匹配的组件的用户。
[0009]同样的,评估个体基因型关联性的方法公开在美国专利申请公开2010/0293130中,其从样品中生成用于个体的基因组图谱、通过将个体的基因图谱和与表现型相关的人类基因型当前数据库进行比较,确定与表现型相关的个体基因型、并且报告该结果。尽管这种方法将比如个体对各种疾病易感性的信息提供至个体或健康保健管理者,但是这种方法缺少发现组件,其中个体的基因信息变成用于新特性发现的基础部分。此外,根据在患者中呈现的其它因素,单人已知的基因型可以是沉默的或具有不同的表现型。这种其它沉默变化不能通过'130系统来检测。
[0010]本文中所有的公开以相同的程度并入本文中以供参考,如同每个单独公开或专利申请被特殊和单独的表明并入以供参考。其中在并入参考中术语的定义或使用对在本文中提供的该术语的定义是不一致或相反的,应用本文中提供的该术语的定义,而不应用在参考中该术语的定义。
[0011]因此,仍然需要自动验证先前所检测异常为显著异常的系统和方法,以及将专家与用于进一步措施或分析的所验证的发现相连接。此外,需要通过过滤掉假阳性、假阴性、以及异常值来最大化专家效用、有限资源的系统和方法。

【发明内容】

[0012]本发明主题提供基于收集的大量数据集改进发现新实用信息的速度的装置、系统以及方法。在大部分情况下,来自数据集的异常通过交叉验证引擎来自动识别、标记、以及验证。只有所验证的异常然后与有资格对异常采取措施的主题专家相关联。换句话说,本发明主题桥连现在可收获的压倒性数量的科学数据和可用于从数据中提取实用信息的相对有限量分析资源之间的间隙。实用信息可以是,例如以趋势、模式、图像、假设、或预测形式,并且这种实用信息在医学、环境科学、娱乐、旅行、购物、社交互动、或其他领域中具感兴趣。
[0013]在进一步优选的方面,巨大量的数据可收集在探究领域中,所述探究领域包括:基因组学、蛋白质组学、糖组学、脑组学、免疫组学、高吞吐量筛选、微阵技术以及芯片上实验室实验。其它数据资源包括由商业、金融、社会、或自我报告资源中聚集的数据。除了极大量数据之外,在许多情况下也有必要执行多变量分析以便阐明现象。由于这种系统的迅速操纵极大容量数据的固有能力,自动化数据分析系统适合于解决需要多变量的难题。
[0014]在本发明主题的一个预想的实施例中,知识数据库存储包括描述符-数值对(descriptor-value pair)的数据集。親合至知识数据库的是分析引擎,该分析引擎将限定符分配至每个描述符-数值对。一般进一步优选的是,如果数值在用于描述符的给定阈值边界外,则异常被识别。当异常被识别时,相关联的数据集被标记。因为异常可由于比如实验误差或仪器检测限的原因而产生,所以一些异常最好分类为分析不显著偏差,例如,与正常或其它所期望状态(如,沉默突变)、伪影、异常值、假阳性、或假阴性不相关的变化。这种异常的数目对于可用的主题专家而言太多以致于无法检查,并且本发明主题试图将分析不显著偏差从那些的可导致发现和/或适当并迅速诊断的异常中分离。
[0015]为了得到可由主题专家管理的数据集,交叉验证引擎筛选标记,并且在验证后确认该标记。最优选的,交叉验证引擎使用与异常有关的一个或更多个资源,所述异常通常使用不直接链接至异常的二次(secondary)参数(如,上下文数据或患者历史或第二次独立患者测试)。下一步是将确认和标记的异常与能够解决异常或其它采取合适措施的主题专家相匹配。
[0016]应该理解的是,所公开的技术提供包括用于大数据集的迅速预分析的许多有利技术效果,所述大数据集可然后在与主题专家(或专家系统)相关联之前,对临床或其它重要性来进一步分析。此外,预想的系统和方法也将允许运输中分析以进一步提高处理能力。
[0017]本发明主题的各种目的、特征、方面及优点从以下优选实施例的详细说明连同附图中,将变得更加显而易见,其中相同的数字代表相同的组件。
【附图说明】
[0018]图1描绘了一些实施例的示例发现路由系统。
[0019]图2示出了将异常路由至不同专家订户用于发现的过程。
[0020]图3详细描绘了分析模块。
[0021]图4详细描绘了交叉验证模块。
[0022]图5详细描绘了订阅模块。
【具体实施方式】
[0023]应该注意的是,涉及计算机的任何语言应该被解读为包括计算设备的任何适当组合,所述计算设备包括服务器、接口、系统、数据库、代理、对等体、引擎、模块、控制器或单独或共同的操作计算设备的其它类型。应该理解的是,计算设备包括被编程为执行存储在有形介质上的软件指令的处理器、非暂时性计算机可读存储介质(如,硬盘、固态硬盘、RAM、闪存、ROM等)。软件指令优选配置计算设备以提供如以下关于公开的装置讨论的角色、职责、或其他功能。在具体优选的实施例中,各种服务器、系统、数据库、或接口可能基于HTTP、HTTPS、AES、公共-私有密匙交换、网络服务AP1、已知金融事务协议、或其它电子信息交换方法使用标准化协议或算法交换数据。数据交换优选地在分组交换网络、互联网、LAN、WAN、VPN、或其它类型的分组交换网络上被进行。
[0024]以下讨论提供发明主题的许多示例实施例。尽管每个实施例代表发明元件的单个组合,但是该发明主题被认为包括公开的元件的所有可能的组合。因此,如果一个实施例包括元件A、B以及C,并且第二个实施例包括元件B和D,那么该发明主题也被认为包括A、B、C、或D的其它剩余组合,即使未明确公开。
[0025]如本文所使用的,并且除非上下文以其他方式表明,术语“耦合至”意在包括直接耦合(其中两个元件经彼此接触而相互耦合)和间接耦合(其中至少一个附加元件位于两个元件之间)。因此,术语“親合至”和“与…耦合”同义使用。
[0026]在一些实施例中,用于描述和要求保护本发明主题的某些实施例的表达成分数量、特性例如浓度、反应条件等的数目被理解为在一些情况下由术语“大约”来修饰。因此,在一些实施例中,在书面描述和随附权利要求中声明的数值参数是可根据试图通过具体实施例获得的所期待的特性而变化的近似值。在一些实施例中,应该根据报告的有效数字的数目以及通过应用平常四舍五入技术来构造数值参数。尽管阐述本发明主题一些实施例的宽阔范围的数值范围和参数是近似值,但是在特定示例中阐述的数值实际可行的精确报告。在本发明主题的一些实施例中呈现的数值可必要地包含某些误差,所述某些误差由在它们的各自试验测量中发现的标准偏差得到。
[0027]如在本文描述中及在整个以下权利要求中使用的,除非上下文以其它方式明确规定,“一”、“一个”、“该”的含义包括复数参考。另外,除非上下文以其它方式明确规定,如在本文描述中使用的“在…之内”的含义包括“在…之内”和“在…中”。
[0028]除非上下文相反地指出,本文中阐述的所有范围应该解释为包括它们的端点并且开放式范围应该被解释为只包括商业实际数值。本文中范围值的限定仅意在作为单独参考落在范围内的每个分离数值的速记方法。除非本文中以其它方式表明,在范围内的每个单独数值
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1