发现路由系统和引擎的制作方法_2

文档序号:9713579阅读:来源:国知局
被并入说明书中,如同其在本文中单独限定。类似的,除非上下文相反地指出,所有数值列表应该被认为包括中间值。
[0029]除非本文中以其它方式表明或上下文以其它方式明确否认,本文中所描述的所有方法可以任何合适的顺序来执行。任何以及所有示例,或所提供的关于本文中某些实施例示例性语言(如,“比如”)的使用仅意在更好地阐明本发明主题并且不会对以其它方式要求的本发明主题的范围造成限制。在说明书中语言不应该解释为表明任何对本发明主题的实践有必要的未要求保护的元件。
[0030]本文中所公开的本发明主题的可替换的元件或实施例的组群不应解释为限制。每个组构件可被参考并且单独地或以与群组的其它构件或本文中发现的其它元件的任何组合形式被要求保护。组的一个或更多个构件可因便利性和/或专利性原因被包括在组中或从其中删除。当任何这种包括或删除发生时,说明书在本文中被视为修改以包含组,从而实现在随附权利要求中使用的所有Markush群组的书面描述。
[0031]本发明主题提供基于收集的大量数据集改进发现新实用信息的定步(pace)的装置、系统以及方法。在大部分情况下,来自数据集的异常通过交叉验证引擎来自动识别和验证。然后只有验证的异常与有资格对异常采取措施的主题专家相关联。换句话说,本发明主题桥连现在可收获的压倒性数量的科学数据和可用于从数据中提取实用信息的相对有限量分析资源之间的间隙。实用信息可以是例如以趋势、模式、图像、假设、或预测形式的信息,并且这种实用信息在医学、在环境科学、娱乐、旅行、购物、社交互动、金融分析、或其他领域中有意义。
[0032]在进一步优选的方面,巨大量的数据可以被收集在探究的领域中,所述探究领域包括:基因组学、蛋白质组学、糖组学、脑组学、免疫组学、高吞吐量筛选、微阵列技术以及片上实验室实验。其它数据资源包括由商业、金融、社会、或自我报告资源中聚集的数据。除了极大量数据之外,在许多情况下也有必要执行多变量分析以便阐明现象。由于这种系统的迅速操纵极大容量数据的固有能力,自动化数据分析系统适合于解决需要多变量分析的问题。
[0033]图1描绘了一些实施例的一个示例性发现路由系统100。发现路由系统100包括发现路由管理模块150、分析模块145、交叉验证模块175、订阅模块155、订阅接口 160、数据库接口 140以及网络接口 170。在一些实施例中,发现路由管理模块150、分析模块145、交叉验证模块175、订阅模块155、订阅接口 160、数据库接口 140以及网络接口 170可被实施为由一个或更多个处理单元(例如,处理器等)可执行的软件。发现路由系统100被示为经由数据库接口 140与知识数据库105耦合。
[0034]在所描绘的示例中,知识数据库105存储数据集110、120以及130。每个数据集代表实体的数据(如,患者的医疗数据、地理区域的地质数据、机构的金融数据等)。数据集内的数据可以由描述符-数值对来代表。每个描述符-数值对包括与数值相关联的描述符。在描绘中,数据集120由与数值122配对的描述符121、与数值124配对的描述符123、与数值126配对的描述符125以及与数值128配对的描述符127组成。为了简单起见,相关联的描述符和数值的单元被称为描述符-数值对。
[0035]预想的数据集可通过不同实验或实验室的步骤和方法生成,并且其通常是高吞吐量分析系统或“组学(-omics)”平台。然而,数据集也可以从数据集(或者甚至是单个数据集)的多个个体较小群组中来被收集。例如,与健康有关的数据集可包括通常代表与细胞、组织、器官、或甚至整个有机体相关的信息的基因组学数据、蛋白质组学数据、糖组学数据、免疫组学数据、或智力组学数据。因此,基因组学数据描述符可包括染色体数目、在基因组学序列中的位置、基因的识别、在种群中的特征频率、序列、序列类型(例如,s i RNA、mRNA、DNA等)、或个体、依照基因组学分析的患者的地理位置或者另一基因组相关的分类。与描述符相关联的是数值,例如核苷酸同源性(identity)、碱基对同源性、序列(原始数据或处理的数据)、多态性结果、序列目标(如,在BAMBAM格式中)、蛋白质序列、或链接至描述符的转录物。在这些实施例中,每个数据集代表用于单个患者的医疗(或组学”数据)数据。
[0036]除了组学”数据之外,与环境有关的数据集可以被包括在发现过程中。例如,经常在大气或海洋研究、在工程模拟等中生成大数据集。因此,预想的系统和方法允许在依靠大量环境数据和其它数据的分析的工程和科学中的迅速发现。例如,追踪地质参数、温度、湿度、风流以及在大气中的化学物质和颗粒的浓度与分布可产生相当量的数据集。环境数据集的分析可产生大规模的而且有用的信息,例如,关于资源分布的信息。在这些实施例中,每个数据集代表与定义的地理区域有关的环境数据。
[0037]可被追踪并且记录的另一类型的信息是与行为有关的数据。所得的与行为有关的数据集也可以被综合至与健康有关的数据分析中。可替换地,可期望的是,追踪与消费者有关的行为活动、政治活动、通勤活动、迀移活动、游戏活动、或其它活动。然而,另一种可能的信息分类包括与性能有关的数据集。个体、研究人员、或雇主可能对这种数据集感兴趣。组合本文中所公开的本发明的可替换元件或实施例不应被解释为限制。每个组成员可被参考并且单独地或以与组的其它成员或本文中发现的其它成员的任何组合而被要求。类似于健康有关的数据,在这些实施例中的每个数据集代表单个人的行为数据。
[0038]假定追踪在竞技、学习环境、工作以及政府中个体的表现的能力,实施在个体活动、教育、工作场所以及政府中的变化以影响所期望的结果并最大化资源利用是可能的。最终,与金融有关的数据集对于希望未来管理他们自己的资源和计划的个体而言可以是重要的。对于机构而言,与金融有关的数据集的分析可揭露犯罪活动或将资源引导朝向更多易访问产品的开发。经济学家也可通过访问并分析更大和更多微妙的与金融有关的数据集来测试他们的假设。组中的一个或更多个成员可由于方便性和/或专利性的原因被包括在群组中或从群组中删除。当任何这种包括或删除发生时,说明书在本文中将被视为包含群组作为修改,从而实现在随附权利要求中使用的所有Markush群组的书面描述。
[0039]也应认识到,大量数据集不必要需要被包含在单个知识数据库(例如,私有数据库或开放访问数据库)中,但是数据集可分布在信息化地彼此耦合的数据库的网络上,或数据集在运输中或甚至在收集或生成点处被分析。因此,数据集可被永久或暂时存储在计算机可读介质或存储器中。根据具体需要和其它参数,数据集可保持不变,或可在存储和/或运输时修改。因此,数据库的大小将变化相当大,并且可以是至少100kB、至少10ΜΒ、至少1GB、至少100GB、至少10TB或甚至更大。
[0040]在进一步预想方面,应该意识到,数据集可以是在收费基础上从研究和其它数据生成设施中获得,或者数据集可以自动地(或甚至强制地)可用。因此,数据集交换也被预想,其中安排信息或从以其他方式不易访问的资源中提供数据集。
[0041]应该注意的是,涉及计算机的任何语言应该被解读为包括计算设备的任何适当组合,该计算设备包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、或单独或共同操作的其它类型的计算设备。应该理解的是,计算设备包括被编程为执行存储在有形介质上的软件指令的处理器、非暂时性计算机可读存储介质(如,硬盘、固态硬盘、RAM、闪存、ROM等)。软件指令优选配置计算设备以提供如以下针对所公开的装置讨论的角色、职责、或其他功能。在具体优选的实施例中,各种服务器、系统、数据库、或接口可能基于HTTP、HTTPS、AES、公共-私有密匙交换、网络服务AP1、已知金融事务协议、或其它电子信息交换方法使用标准化协议或算法来交换数据。数据交换优选在分组交换网络、互联网、LAN、WAN、VPN、或其它类型的分组交换网络上被进行。
[0042]在图1的描述中,发现路由引擎135经配置以使数据库接口140信息化地耦合至知识数据库105。数据库接口 140也与发现路由管理模块150信息化地耦合。在描述的实施例中,数据库接口 140接收来自知识数据库105的数据集110、120以及130,并且将数据集110、120以及130传送至发现路由管理模块150。
[0043]图1的发现路由管理模块150信息化地耦合至数据库接口140、分析模块145、订阅模块155、交叉验证模块175以及网络接口 170。在图1的实施例中,发现路由管理模块150被编程为从数据库接口 140、分析模块145、订阅模块155、网络接口 170以及交叉验证模块175接收数据。发现路由管理模块150被进一步编程为将数据传输或引导至分析模块145、订阅引擎155以及交叉验证模块175。
[0044]在图1描绘的实施例中,网络接口170信息化地耦合至发现路由管理模块150并且耦合至先验(pr1ri)知识165,先验知识在这个实施例中存在于发现路由引擎135的外部。网络接口 170被编程为接收来自先验知识165的数据并将数据传输或进一步引导至发现路由管理模块150。
[0045]在图1中,分析模块145信息化地耦合至发现路由管理模块150,并被进一步编程为接收来自发现路由管理模块150的数据并将数据传输至发现路由管理模块150。分析模块145被进一步编程为在接收自发现路由管理模块150的数据上进行操作。
[0046]为了管理巨大量的数据,分析模块145优选地与发现路由管理模块150耦合,该发现路由管理模块150提供对来自先验知识165、订阅模块155、交叉验证模块175以及知识数据库105的数据的访问。分析模块145经由发现路由管理模块150接收来自知识数据库105的数据集,并在该数据集上进行操作以识别至少一个异常的描述符-数值对。
[0047]在识别异常的描述符-数值对之后,分析模块145经由发现路由管理模块150将异常的描述符-数值对供应到交叉验证模块175。然后,交叉验证模块175将异常数据集与任何数目的条件或特征相关联,并且随后确认与条件或特征有关的异常数据集的显著性。一旦异常的描述符-数值对的显著性已经被确认,交叉验证模块175经由发现路由管理模块150将确认的异常数据集转发至订阅模块155以与订户(subscriber)匹配采取进一步动作。
[0048]如以下更详细的讨论,将分析模块145耦合至订阅模块155是可期待的,因此专家订户可访问并改进算法、修饰用于识别异常的阈值、或相似的原因。如本文所使用的,以及除非本文以其他方式规定,术语“耦合至”意在包括直接耦合(其中两个元件被耦合以使彼此互相接触)和间接耦合(其中至少一个附加元件位于两个元件之间)。因此,术语“耦合至”和“与…耦合”被同义使用。
[0049]在一个实施例中,分析模块145将限定符分配至每个描述符,如在图1中描述的描述符121、描述符123、描述符125以及描述符127。由于限定符与数值配对的描述符有关,所以限定符代表数值的正常状态(例如,由于限定符与描述符121有关,代表数值122的正常状态)。代表性
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1