具有动态基因分布的搜索空间遍历的制作方法

文档序号:6568482阅读:115来源:国知局
专利名称:具有动态基因分布的搜索空间遍历的制作方法
具有动态基因分布的搜索空间遍历本发明涉及在基于基因组学的测试中的搜索过程领域,并且尤其 涉及改进的方法,以在搜索过程中包括更多的测量值。已知在很多领域中都存在子集选择问题,例如用于分子诊断的模 式发现。在该领域中,典型地,可得到关于患者和发现这些测量值的 子集的愿望的测量值数据,该患者具有或没有特定的疾病,并且,所 述测量值的子集可以用于可靠地检测该疾病。演化计算是一种可用于 根据可得到的测量值确定测量值的子集的己知方法。演化计算的范例可以在提交的专利申请WO199043和WO0206829中找到。具有一些形式的子集选择的演化搜索算法具有一次考虑整个搜 索空间中的子集的特点。例如,每个中具有15个基因的100个染色 体的群体可以仅覆盖1500个不同的基因。如果搜索空间包含多于 1500个基因,那么通常不能保证该算法对每个基因至少进行一次。 对于该问题的蛮力解将增加群体的大小和/或染色体的大小,由于这 增加了该算法的实质计算负担,因此,这通常是不实用的。2004年12月28日提交的,名为"Method of Generating Genomics-Based Medical Diagnostic Tests "的美国专禾U申请号 60/639,747,描述了一种用于确定分类器的方法,该分类器用于生成 染色体的第一代染色体群体,其中,每个染色体具有选定数量的基因, 这些基因指示相关测量值集合的子集,该专利文件的内容在此以引用 的方式并入。在该所描述的方法中,染色体的基因在计算上被遗传地 演化,从而产生连续代的染色体群体。每个继承代染色体群体的产生 都包括通过(i)以两个父代染色体共同的基因值填充子代染色体 的基因,和(ii)以对于父代染色体中的一个或另一个来说唯一的基 因值来填充剩余的基因,来根据该染色体群体中的父代染色体生成子代染色体;选择性地使子代染色体中对于父代染色体中的一个或另一 个来说唯一的基因值发生突变,而不使子代染色体中两个父代染色体 共同的基因值发生突变;并且基于使用每个染色体的基因指定的相关 测量值的子集确定的该染色体的适合度来以子代染色体更新该染色 体群体。然后,选择分类器,该分类器使用遗传演化所标识的染色体 的基因指定的相关测量值的子集。然而,该所描述的方法使用设计为引发精确的和小的子集的演化 的两层(level)等级选择步骤,即适者生存。在该操作中,竞争解 (competing solution)对于该问题指A和B,其被按照如下进行比较如果classification一errors(A)〈classification一errors(B),那么选择A;否贝'J如果 classification—errors(A)=classification—errors(B)且 number—of_measurements(A)<number—of—measurements(B),那么选择 A;其他,随机选择A或B。其中,classification—error()是适合度的观!j度。一旦初始化,就将趋异和突变基因从可得到基因的池中随机地抽 出。遗传算法的一个基本部分是在染色体交配过程中存在偶发的突 变。对于任意的基因数量,以已知的概率使染色体基因发生突变。在 特定的情况下,如果不允许染色体的复制,突变仅限于在染色体中还 不存在的基因。在随机选择基因的其他场合,建立初始群体,且在趋 异之后随机挑选大部分基因。在所描述的过程中,以相同的概率,即1/n抽出新的基因,其中, n是允许成为该染色体的一部分的基因的数量。这使得由于许多基因 不能被"抽出"以参与演化算法的循环,它们将不能被探察。因此,在工业上需要允许在搜索过程中包括或测试所有基因的方法。公开了用于从多个测量值中选择测量值的方法和装置。该方法包 括如下步骤对于每个测量值,将测量值状态初始化为第一值;基于 相应的状态值确定多个测量值之一的可选性;并且在选择该测量值之后将该状态更新为第二值。在本发明的一方面,确定可选性的步骤还 包括选择多个测量值之一并且当该相应状态的值为第一值时保留所 选择的测量值的步骤。本发明可以以不同部件和部件的排列以及不同过程操作和过程 操作的排列来形成。附图仅仅为了说明优选实施例,而不构成对本发 明的限制。

图1示出了用于根据本发明的第一原则选择基因的示例性过程; 图2示出了用于根据本发明的第二原则选择基因的第二示例性 过程;应该理解的是,这些附图是为了说明本发明的想法,并未按比例 绘制。应该理解的是,已经整体使用了相同的参考标号,可能在适当 的地方补充参考字符,从而标识相应的部分。如在上述共同拥有的美国专利申请中描述的,可以执行对基因的 选择。然而,如在此描述的,基因的选择被限制为不是检査所有基因。根据本发明的一个原则和优选的原则,在该空间中维持大小为N 的向量,称为gene—coimf,该向量包括用于N个基因(即测量值)中 的每个的计数器,并且该计数器在每次在染色体中发现基因或测量值 的时候增加。此外,根据本发明的原则,提供称为必W^"o"的向 量,其确定怎样选择突变基因。将ge恥—coM/^初始化为已知值,优选地为zero (0)值,并且将 在向量i&的'6w^ "中的值初始化为第二已知值,优选地为one (1) 值。每次在位置i处的^"e一o "W计数器增加的时候,在向量 efc^6wfe"中的相应位置i处的值可以被更新。在本发明的一方面, 其在图1的过程100中示出的范例中进行了更加全面的描述,将相关 的分布值设定为zero (0)。根据本发明的原则,当随机选择基因时,该算法将随机选择的基 因的使用限制到那些向量gwe—co柳/中的相应值为one (1)的基因, 或者更加一般地,该算法限制或减小在较不频繁使用的一个基因之前 重新使用频繁使用的基因的概率。当设定在向量^5的'Zu^'ow中的所有值(例如为zero (0)值)以指示它们已经被处理过时,称为 wstow—^ W6w"'o"的标记被设定为"真"值,并且继续如在以上引 用的共同拥有的美国专利申请中描述的基因选择。图1示出了根据本发明的第一原则的示例性过程100的流程图。 在该示例性过程中,使用了单一的数据结构-向量^^7^/ow (101), 且将其初始化为'未标记的',即zero (0)值。在该示例性过程中, 在块IIO,随机选择基因。在所有基因都已经被选择过的情况下(块 120:在^sW6w"o"中的所有值都被标记为1),那么在块150接受该 基因并将其输出。否则,如果不是所有基因都已被使用且在块130该 基因被标记为使用过,那么重复在块110的基因选择过程。如果该选 择的基因未被使用,(g卩,在块130为肯定的结论),那么将该基因标 记为使用过(在块140)且在块150将该标记输出。虽然过程100保证所有的基因值都被随机选择至少一次(只要存 在与可能的基因值的数量同样多的选择),但是在整个搜索过程中等 同地选择所有基因值是非常受限的且不能确保。图2示出了根据本发明的第二原则的示例性过程200的流程图。 该过程提^^了动态调整了一时间长度(直到该实验的整个执行时间) 后的分布。在本发明的该方面,在该过程中使用了两种数据结构 g^e—(201),其中,对于每个基因,每次选择该基因的时候增 加相关的计数器;以及cfo的'6w/ow (202),其含有基于ge"e—cow"f 中的值和可选的预设的最大值与每个基因相关的值。在tfc的'^"o" 中的所有字段被初始化为第二已知值,例如one (1)。在过程200中,以将最大基因计数(mox-GC)设定为预定值, 或者例如,设定为ge"e—co"W数据结构(201)中的最大数来开始该 选择,这在块210中完成。由于确保向量W^^^'ow在整个实验过 程中被动态更新,本发明的第二方面是有利的。在该情况下,以如下原则更新向量6fo^7'6^'OW中的值如果在gewe—cowm中的值小于wox-GC,则将afcfn》Wow中的值设定为 w x-GC-gewe—cow"L否则,如果gewe—coww/中的值不小于wox-GC, 贝U将cfeW6w"ow中的值设定为zreo (0)。注意,当由gewe—c卯"f中的最大值设定wox-GC时,在步骤220中,其决不会被稍后的规则设 定为zero (0)。基于分布来选择值的实用方式是通过公知的轮盘赌选 择法。为此,以等于^^^"//o"中的所有值的总和的长度来建立基 因的列表。然后,对在该列表中的每个基因数被准确地重复和 ^ WZm"o"中的值同样多的次数(230)。这形成"轮盘赌"中被随机 选择的一个值(240)。该选择的基因的ge"e—cow^被增加(250),并 且该值返回(260)。图1和图2中的过程可以用于替换在该过程中值的随机拾取,如 在上述引用的共同拥有的美国专利申请中描述的。在本发明的范围内,应该考虑到,本发明不限于在上述引用的共 同拥有的美国专利申请(名为CHC)中描述的算法,而是可以与遗 传算法(GA)的任意实现方式一起使用。在此描述的方法还具有如 下优势,其依赖在CHC中保证保持共同基因值的安全机构,且允许 使用用于随机基因选择的其他方法。通常,该算法可以与需要对特征 空间进行适当遍历的任何方法一起使用。根据本发明的系统可以被实现为硬件、可在一个或多个硬件/软 件设备中实现的、用适当的软件或可执行代码载入的可编程处理或计 算机系统。该系统可以借助于计算机程序来实现。当载入到可编程设 备时该计算机程序将使在该设备中的处理器执行根据本发明的方法。 因此,该计算机程序使可编程设备作为根据本发明的系统。虽然已经示出、描述和指出了本发明的基本的新特征,如应用于 其优选实施例的那样,应该理解的是,本领域技术人员可以对所述的 装置、所公开的形式和设备的细节、以及它们的操作进行各种省略、 替换和变化,而不脱离本发明的精神。显然地,想要使以基本相同的方式执行基本相同的功能从而达到 相同的结果的那些元件的所有组合都在本发明的范围内。也意欲和预 期从一个所述实施例到另一个实施例的元件的替换。
权利要求
1、一种用于从多个测量值中选择测量值的方法,包括如下步骤对于每个所述测量值,将测量值状态(101)初始化为第一值;基于相应的状态值确定所述多个测量值中的一个的可选性(120,130);以及在选择所述测量值之后,将所述状态更新为第二值(140)。
2、 如权利要求l所述的方法,其中,确定可选性的所述步骤包括如下步骤选择所述多个测量值中的一个(110);以及当所述相应状态的值为所述第一值时,保留所选择的测量值(130)。
3、 如权利要求2所述的方法,一个的所述步骤包括如下步骤随机选择所述多个测量值中的
4、 如权利要求2所述的方法,一个的所述步骤包括如下步骤 生成轮盘赌选择过程(240)。其中,选择所述多个测量值中的 一个(110)。 其中,选择所述多个测量值中的
5、 如权利要求l所述的方法,还包括如下步骤 对于所述多个测量值(202)中的每个初始化分布值;以及 当选择相应的测量值时更新所述分布值(220)。
6、 一种用于从多个测量值中选择测量值的装置,包括 一种用于执行代码的计算机系统,该代码用于对于每个所述测量值,将测量值状态(101)初始化为第一值;基于相应的状态值确定所述多个测量值中的一个的可选性(120, 130);以及在选择所述测量值之后,将所述状态更新为第二值(140)。
7、 如权利要求6所述的装置,其中,所述计算机系统通过执行 代码确定可选性,该代码用于选择所述多个测量值中的一个(110);以及当所述相应状态的值为所述第一值时,保留所选择的测量值(130)。
8、 如权利要求7所述的装置,其中,所述计算机系统通过执行 代码选择所述多个测量值中的一个,该代码用于随机选择所述多个测量值中的一个(110)。
9、 如权利要求7所述的装置,其中,所述计算机系统通过执行代码选择所述多个测量值中的一个,该代码用于生成轮盘赌选择过程(240)。
10、 如权利要求6所述的装置,其中,所述计算机系统还执行用于执行如下操作的代码对于所述多个测量值(202)中的每个初始化分布值;以及 当选择相应的测量值时更新所述分布值(220)。
11、 一种包含代码的计算机软件产品,该代码用于指导计算机从多个测量值中选择测量值,该代码指导所述计算机执行如下步骤 对于每个所述测量值,将测量值状态(101)初始化为第一值;基于相应的状态值确定所述多个测量值中的一个的可选性(120,130);以及在选择所述测量值之后,将所述状态更新为第二值(140)。
12、 如权利要求11所述的计算机软件产品,其中,所述代码还 指导所述计算机执行如下步骤选择所述多个测量值中的一个(110);以及当所述相应状态的值为所述第一值时,保留所选择的测量值(130)。
13、 如权利要求12所述的计算机软件产品,其中,所述代码还 指导所述计算机通过执行如下步骤选择所述多个测量值中的一个-随机选择所述多个测量值中的一个(110)。
14、 如权利要求12所述的计算机软件产品,其中,所述代码还 指导所述计算机通过执行如下步骤选择所述多个测量值中的一个生成轮盘赌选择过程(240)。
15、 如权利要求ll所述的计算机软件产品,还包括如下步骤 对于所述多个测量值(202)中的每个初始化分布值;以及 当选择相应的测量值时更新所述分布值(220)。
全文摘要
公开了一种用于从多个测量值中选择测量值的方法和装置。该方法包括如下步骤对于每个所述测量值,将测量值状态初始化为第一值;基于相应的状态值(120,130)确定所述多个测量值中的一个的可选性;以及在选择所述测量值之后,将所述状态更新为第二值。在本发明的一方面,确定可选性的步骤还包括如下步骤选择所述多个测量值中的一个;以及当所相应的状态值为所述第一值时,保留所选择的测量值。
文档编号G06F19/00GK101238467SQ200680029046
公开日2008年8月6日 申请日期2006年7月12日 优先权日2005年8月5日
发明者A·亚内夫斯基, J·D·谢弗 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1