用于优化基于基因组学的医学诊断测试的遗传算法的制作方法

文档序号:6655000阅读:200来源:国知局
专利名称:用于优化基于基因组学的医学诊断测试的遗传算法的制作方法
以下内容涉及遗传算法。本发明特别可以应用于基于基因组学的医学诊断测试,并且将特别参考这方面对本发明进行描述。更一般地说,本发明适用于优化用于生物信息学的分类器(classifier),并且可以用于软件代码紧缩、神经网络开发等其他应用。
近来,在关于人类基因组的细节以及如何用健康的和染病的对象表示基因的可获得信息量方面已经取得了蓬勃发展。实验室技术现在可用于快速地获得表征DNA、RNA、蛋白质以及其他有机高分子在生物对象中的浓度的大测量组。
举例来说,微阵列(Microarray)包括在其上放置c-DNA或者另一种结合物(binder)的小样本“点”的载玻片或玻璃板。每一个点包括一种特定的c-DNA或者与所关心的特定高分子结合的其他结合物,并且单个微阵列可以包含几百个、几千个或者更多的这种点。从患者身上提取组织样本,提取所关心的分子种类(例如DNA、RNA等等)并用一种发光信号传导试剂(signalingagent)或其他标记进行处理,并且将其泼在该微阵列上。在一个被称作杂合(hybridization)的处理中,所述组织内的特定类型的高分子聚集在所述点处,其中所述点具有针对那些特定高分子的结合物。通常,使用不同标记(例如被不同着色的发光试剂)处理的比较或参照样本也被施加到该微阵列。例如使用激光束来激发所述标记以便产生光致发光,并且测量响应强度以表征与各个点有关的高分子的浓度。这样,可以快速并且定量地执行对于包含在生物样本中的大量有机高分子(例如几百、几千或更多)的测定。
质谱图分析是另一种用于快速地测定在从患者身上抽取的样本中的大量高分子的浓度的方法。在这个方法中,通过激光或其他机制在真空环境中电离所述样本,并且通过离子计数器来测量所述被电离的分子片段的分子量/电荷比值的分布。根据对应于各种高分子的已知裂片图,可以从所述质谱图中导出各种高分子的浓度。或者,所述质谱图的峰值可以被用作生物信息测量数据,而无需将所述质谱图的图案与特定高分子相关联。
生物信息学采用数值方法从微阵列测量、质谱图或者其他基因组或有机高分子测定中提取有用的生物信息。举例来说,如果在所述微阵列或质谱图中的特定图案可能与一种特定类型的癌症极大地相关联,那么所述模式可以被用作筛选该癌症的分类器。这样允许利用相对无创的技术(例如采血或大脑脊液、采集唾液、尿、大便等等的样本或者以其他方式获取体液或组织样本)来实现对癌症和其他所关心的病变的早期检测。
然而,由于可用于开发所述诊断医学测试的大量信息,出现了一个问题。举例来说,如果人们期望开发一种采用一组2500个测量(例如具有50×50的点阵列的微阵列)当中的5个测量(例如微阵列点、质谱图峰值等等)的癌症筛选测试,那么能被用于该诊断测试的可能的5样本测量子组的搜索空间是25005=2500!2492!·5!≅8.1×1014---(1)]]>这个搜索空间太大,以至于不能利用穷举技术来搜索。此外,等式(1)的估计假设5个测量的子组对于正在开发中的癌症筛选测试来说是最佳的,这可能是不正确的。测量的最佳子组可能是4个测量、6个测量等等,并且通常是未知的。
在基因组诊断医学测试的开发过程中的另一个问题是尽管测量的总数很大,但是从其中提取这些测量的患者的集合通常要小得多。举例来说,一个典型的研究可能会使用50×50的微阵列和包括40个测试对象的测试组,其中20个对象患有所关心的癌症,并且另外20个对象是没有所述癌症的核对标准(control)。产生了包括100,000个测量的一大组;然而,40个测试对象的较小的组规模所带来的问题是,在所述测量数据中可能存在许多与普通人群中的所研究癌症无关的假相关性。
遗传算法已经被用于所述优化问题。在遗传算法中,产生初代染色体群体,其中每一个染色体具有一组基因,该组基因指示所述测量组的一个子组。举例来说,利用一组由50×50的微阵列产生的测量,每一个基因具有对应于由所述微阵列的2500个点提供的2500个测量的一个值,该值在1到2500之间。在单个染色体中的5个所述基因适当地指定了包括所述2500个测量当中的5个的特定子组。为每一个染色体优化分类器。所述分类器利用由所述染色体指定的该基因子组将对象分类成两个或更多分类中(比如癌症分类和非癌症分类)。一个质量因数衡量所述分类器在一组患者中识别癌症的精确度,并且被用于选择所述染色体集合中的最适于繁殖到后代中的染色体。更进一步地,后代染色体通过基因值的随机或伪随机变化而发生突变,这类似于生物学的突变过程。
虽然以生物学的进化概念为基础,但是遗传算法通常以许多方式不同于生物学的进化过程。在Whitley的“A Genetic Algorithm Tutorial”(Statistics andComputing,vol.4,第65至85页,1994年)中提供了对于一些遗传算法的概述。一种鲁棒的遗传算法是由Larry Eshelman开发的跨世代精英选择、异物种重组、灾变突变(CHC)算法。以下公开了Eshelman的CHC算法及其变型,比如2001年7月10日发布的Schaffer等人的美国专利号6,260,031;2003年4月22日发布的Mathias等人的美国专利号6,553,357;以及Eshelman的“TheCHC Adaptive Search AlgorithmHow to Have Safe Search When Engaging inNontraditional Genetic Recombination”,Foundation of Genetic Algorithms,GregoryRawlins(ed.),Morgan Kaufmann,San Francisco,CA,265-83(1991)。已经发现,遗传算法可以高效地搜索较大空间,因此非常适合于从例如供诊断医学测试之用的微阵列和质谱图之类的基因组测定中识别较小的测量子组。
然而,现有的遗传算法对于生物信息学和其他应用来说存在某些缺陷。在利用遗传算法的优化分类器中,必须对所要研究的每一个子组大小重新执行所述遗传算法。因此,举例来说,执行5个独立的计算遗传进化形成以便跨越3个至7个测量的子组大小。此外,突变率通常较低,举例来说大约是百分之一或更低,从而确保足够的跨世代延续性,以便提供有意义的收敛。然而,低突变率放慢了总的发现速率。
更进一步地,在生物信息学应用中,所述测量组通常是样本丰富而对象贫乏的(例如,把2500个测量应用于仅有40人的测试对象集合)。所述对象贫乏的数据组导致收敛的可能性趋于假相关,从而对于普通人群中的所研究病变没有太高的预示性。
以下内容设想了能够克服如前所述的限制和其他限制的改进的设备和方法。
根据一个方面,提供了一种用于确定分类器的方法。产生染色体的第一代染色体群体。每一个染色体具有(i)指定相关测量组的子组的所选数量的基因;以及(ii)已表达子组大小基因,其具有区分所述染色体的已表达和未表达基因的值。包含所述已表达子组大小基因的染色体的各基因被各自计算地遗传进化到不参考未表达基因评估的健康标准(fitness criterion),以便产生连续世代的染色体群体。选择一种分类器,该分类器利用由所述遗传进化识别的染色体的已表达基因所指定的相关测量的子组。
根据另一个方面,提供一种用于确定分类器的方法。产生染色体的第一代染色体群体。每一个染色体具有指定相关测量组的子组的所选数量的基因。所述染色体的基因被计算地遗传进化,以便产生连续世代的染色体群体。产生每一个后继世代染色体群体包含通过以下步骤从当前染色体群体的亲代染色体产生后代染色体(i)利用两个亲代染色体所共有的基因值来填充所述后代染色体的各基因,以及(ii)利用所述亲代染色体当中的一个或另一个所独有的基因值来填充剩余的基因;有选择地突变所述亲代染色体当中的一个或另一个所独有的后代染色体的基因值,而不突变两个亲代染色体所共有的后代染色体的基因值;以及基于每一个染色体的健康状况利用后代染色体来更新所述染色体群体,所述健康状况是利用由该染色体的各基因指定的相关测量的子组确定的。选择一个分类器,该分类器使用由所述遗传进化识别的染色体的各基因所指定的相关测量的子组。
根据另一个方面,提供一种用于确定分类器的方法。产生染色体的第一代染色体群体。每一个染色体具有指定相关测量组的子组的所选数量的基因。所述染色体的基因被计算地遗传进化,以便产生连续世代的染色体群体。产生每一个后继世代染色体群体包含对于一组对象,在所述测量组的值中引入所选择的仿真噪声级;通过对当前染色体群体的染色体进行配对来产生后代染色体;有选择地突变后代染色体的基因;以及根据每个染色体的健康状况利用后代染色体来更新所述染色体群体,所述健康状况被分别确定为具有所引入的仿真噪声的对象组的测量的值。选择一个分类器,该分类器使用由所述遗传进化识别的染色体的各基因所指定的相关测量的子组。
根据另一个方面,公开了一种用于确定医学对象是否具有所关心的病变的医学诊断测试。利用由之前三段中的其中一种方法确定的医学诊断分类器来分类对所述医学对象的测量,其中相关的测量组表征有机高分子的浓度。
根据另一个方面,提供一种遗传优化方法。染色体群体的基因被计算地遗传进化。所述进化包含进化每个染色体中的多个已表达基因,以及采用一种不参考每个染色体的未表达基因而评估的健康标准。选择通过所述遗传进化产生的优化染色体。
一个优点在于,对于生物信息应用或其他应用优化分类器,而无需关于将被合并到该分类器中的测量的数量的先验知识并且无需选择将被合并到该分类器中的测量的数量。
另一个优点在于,在基于遗传进化的优化中提供了更鲁棒的收敛性。
另一个优点在于,与高突变率相结合地提供了鲁棒的收敛性。
另一个优点在于,遗传算法收敛性对于测量组中的系统误差的敏感度得到降低。
通过阅读下面的详细说明,许多附加的优点和益处对于本领域技术人员来说将变得显而易见。
本发明可以具体实现为各种组件、组件安排、各种处理操作以及处理操作安排。附图仅仅是为了说明优选实施例,而不应被看作是限制本发明。


图1示意性地示出了利用遗传算法的优化系统。
图2示意性地示出了利用图1的优化系统开发的诊断医学测试的一种实施方式。
图3A和3B示意性地示出了两个实例染色体,其中每个染色体具有16个基因,其中包含已表达的子组大小基因以及其值标识可以用在分类器中的测量的其他基因。图3A的染色体具有7个已表达测量基因,而图3B的染色体具有10个已表达测量基因。
图4A、4B、4C和4D示意性地示出了对图3A和3B的两个实例染色体进行运算以便产生两个后代染色体的图1的交叉算子(crossover operator)的运算。
图5示出了利用图1的系统执行的计算遗传进化优化的散布图。在图5中,每个染色体的已表达子组大小基因的值被沿着纵坐标(Y轴)绘制,并且试验数量(对应于时间)被沿着横坐标(X轴)绘制。
参考图1,优化系统8包含对于染色体群体12进行运算的遗传算法10。对于生物信息分类器的示例性优化,每个染色体通常包含多个基因,其中每个基因的值指定一个特定的生物学测量。举例来说,如果所述生物学测量作为从一组测试对象获得的100×100点微阵列而被执行,那么每个微阵列具有10,000个点,即10,000个测量。每个基因适当地包含一个索引值(例如在1到10,000的闭区间内的一个整数,或者在0到9,999的闭区间内的一个整数等等),其索引一个测量。通过随机地或伪随机地为每个基因分配一个在所述索引范围内的值(通常确保没有索引被重复),适当地产生第一代染色体群体。或者,所述分配可以不那么随机,例如所述分配可以偏向某些基因组,其中怀疑这些基因组对于将被优化的分类器较为有效。
为了产生下一代染色体群体,交叉算法20利用诸如基因复制、基因混合、基因突变等适当操作来组合当代群体的亲代染色体,以便产生后代染色体。通过质量因数来表征当代染色体和后代染色体,以便确定每个染色体的健康状况或可存活性。在图1示出的生物信息分类器优化中,关于一组学习案例22执行优化,所述学习案例22由交叉验证和噪声添加算法24划分为训练案例26子组和测试案例28子组。通常,在评估每个新一代染色体群体之前执行所述交叉验证划分。
对于每个染色体,通过分类器训练算法30关于所述训练案例26优化所述分类器。举例来说,所述分类器可以是由所述染色体的已表达基因所选择的测量的子组的测量值的加权和,并且所述优化可以包括优化所述加权因子。还可以采用更复杂的分类器。在一些生物信息分类应用中,所述学习案例22是人类测试对象的集合,他们中的一些具有所关心的病变(例如特定类型的癌症),并且他们中的另一些不具有所关心的病变。优化由通过染色体指定的测量的子组所定义的分类器,以使得所述分类器将其以下能力最大化将所述学习案例22分类为具有所关心的病变的个体的第一分类,以及不具有所述病变的个体的第二分类。
一旦优化了对应于染色体的分类器,分类器测试算法32测试所述经优化的分类器在把所述试验案例28的个体分类成具有所关心的病变的第一个体分类和不具有所述病变的第二个体分类时到底多有效。一种量化所述染色体的健康状况和可存活性的适当质量因数例如是由所述经优化的分类器产生的错误分类数量的计数,或者测试案例对象的错误分类数量与所述试验案例28中的个体总数的比率。
对于每个染色体重复由分类器训练算法30和分类器测试算法32所执行的处理,以使得染色体群体12当中的染色体都被分配有对应于健康状况或可存活性的质量因数。根据一个或多个适当的选择标准,选择算法40选择哪些染色体存活到下一代。对于每个连续世代重复这个处理,以便计算地遗传进化染色体群体12,直到遗传算法10检测到一个或多个适当的停止标准,所述标准例如是存活后代的数量小于一个阈值,或者人口的百分比变化小于一个阈值等等。
分类器选择算法44检查最终的染色体群体以便识别最健康的染色体,其被用来构造用于所关心的病变的适当的诊断测试50。所述诊断测试通常识别对应于所述最健康染色体的已表达基因的测量子组52以及采用所述测量子组52的经优化的分类器功能52。
参考图2,适当地应用诊断医学测试50如下。获取在测试下的患者的测量值60。为了提高效率,通常只获取那些被用于诊断测试50的测量结果。分类器功能评估器64关于所述测量值的子组来评估分类器功能54,以便产生阳性(检测到癌症)或阴性的(没有癌症)测试结果,并且通过适当的报告设备66(例如视频显示器、打印输出等等)将其报告给医务人员。
有利地,人们会理解,一旦如同之前参考图1所描述的那样开发出所述诊断医学试验50,其在医院、诊所或其他医疗设施中的实现方式就是直接明了的。举例来说,将处理元件62、64、66适当地实现为计算机的软件和硬件,并且通过存储在计算机的硬盘或其他非易失性存储装置上或者存储在医院网络、因特网等等之上的数据来适当地表示所开发的诊断测试50。一旦开发出诊断测试50,就不必在设置于医院、诊所等等的诊断测试系统实施方式中包含所述优化系统8,相反,只设置对于测量子52的识别和分类器功能54。
在给出了所述优化系统8的概述以及它在诊断医学测试中的实例应用之后,参考图1并且进一步地参考图3A、3B、4A、4B、4C和4D对所述计算遗传进化优化的各个实施例的各方面进行更详细的描述。
返回参考图1并且进一步地参考图3A和3B,所述染色体群体12的每个染色体具有在图3A和3B中显示的一般形式,其中图3A示意性地示出了一个实例染色体70,并且图3B显示了另一个实例染色体72。每个染色体具有固定长度的基因。在实例染色体70、72中,这个固定的长度是16个基因;然而,一般来说,所述染色体可以具有任何所选数量的基因。每个染色体的所选数量的基因被表达,并且通过已表达子组大小基因80的值来标识已表达基因的数量,其在所示出的格式中是在图3A和3B中的从左到右排列的有序基因组中的最左边的基因。一般来说,每个染色体可以具有由其已表达子组大小基因80的值所指定的不同数量的已表达基因。举例来说,图3A的染色体70具有值为7的已表达子组大小基因80,其指示7个已表达基因,而图3B的染色体72具有值为10的已表达子组大小基因80,其指示10个已表达基因。在图3A和3B的安排中,所述已表达基因是那些紧接在所述已表达子组大小基因80右边的基因,并且所述已表达子组大小基因80的值标识一个序数位置值,所述顺序位置值将所述有序基因组的已表达基因和未表达基因分隔开。
因此,举例来说,在图3A的染色体70中,所述已表达子组大小基因80中的值7标识在所述已表达子组大小基因80之后的第七个基因作为最后一个已表达基因,那些跟在该第七个基因之后的基因是未表达基因。类似地,在图3B的染色体72中,所述已表达子组大小基因80中的值10标识在所述已表达子组大小基因80之后的第十个基因作为最后一个已表达基因,那些跟在该第十个基因之后的基因是未表达基因。所述已表达子组大小基因80的值通常应该处于1到最大基因数减1的闭区间内(因此不计算所述已表达子组大小基因80)。因此,对于具有染色体70、72的格式的染色体来说,所述已表达子组大小基因80应该具有处于1和15之间的一个值。对于值1,有1个已表达基因14个未表达基因;对于值“15”,有15个已表达基因而没有未表达基因。在一些实施例中,可以更进一步地限制这个范围。举例来说,人们可能期望所述分类器在不少于2个基因上进行操作,相应地,对于所述已表达子组大小基因的下限应该是2。类似地,人们可能期望把已表达基因的数量限制到小于所述染色体中的基因总数,从而确保在每个染色体中总是有一个或一些未表达基因。
所描述的实施例采用包含一个序数值的子组大小基因,该序数值把所述有序基因组的已表达基因和未表达基因分隔开。然而,可以用区分所述染色体的已表达基因和未表达的基因的其他表示法来实现所述子组大小基因。举例来说,在一些所设想的实施例中,所述子组大小基因是二进制掩码表示法。对于具有16个基因(不计算所述子组大小基因)的染色体,适当的二进制掩码类型子组大小基因包含对应于所述16个基因的16个比特,每个比特具有一个指示所述对应的基因是已表达基因还是未表达基因的二进制值(“1”或“0”)。举例来说,如果二进制“1”指示已表达而二进制“0”指示未表达,那么在所述掩码类型子组大小基因中的二进制“1”值的数量就指示已表达基因的数量。
除了所述已表达子组大小基因80之外的每一个基因具有一个值,该值指示可能用于所述分类器中的一组可用测量的其中一个测量。举例来说,如果对于学习案例22利用100×100点微阵列获得所述测量组,那么每个基因可以适当地具有一个在1和10,000之间的值,该值索引所述微阵列的各点。在质谱图的情况下,所述测量组可以是所述质谱图的质量/电荷比值元(bin)。在图3A的染色体70中,在已表达子组大小基因80右边的第一个基因具有值17,其索引所述测量组的第十七个测量;在所述已表达子组大小基因80右边的第二个基因具有值8,其索引所述测量组的第八个测量;在所述已表达子组大小基因80右边的第三个基因具有值10,其索引所述测量组的第十个测量;依此类推。
图3A和3B中的染色体格式是说明性实例。本领域技术人员可以容易地开发其他的形式,其中已表达子组大小基因区分每个染色体的已表达基因和未表达基因。举例来说,所述已表达子组大小基因可以被定位为最右边的基因。通过利用其中一个基因来标识一个染色体中的已表达基因的数量,对于每个染色体来说具有不同数量的已表达基因通常是有可能的。此外,由于所述已表达子组大小基因是所述染色体的一个基因,因此它可能受到类似于所述染色体的其他基因的遗传进化操作,以便优化所述染色体中的已表达基因的数量。这种进化基因数量的能力是有益的,因为用于特定医学诊断测试的最佳基因数量通常不是先验已知的。
参考图4A、4B、4C和4D,其中描述了用于产生后代染色体和用于更新所述染色体群体12的每一个新世代的适当方法。在所描述的实施例中,遗传算法10实施Eshelman CHC遗传算法的一个版本,其被修改成适应每个染色体中的已表达基因的可变数量,所述可变数量由该染色体的已表达子组大小基因80阐明。这些修改包括修改所述交叉算子20以便把已表达子组大小基因80传播到后代染色体中,该已表达子组大小基因80与其余基因属于不同种类。还修改了交叉算子20,以便促进与亲代染色体所共有的后代基因的表达和传播。举例来说,在一些实施例中不突变共有基因,并且在一些实施例中所述共有基因的位置被偏向已表达子组大小基因80,也就是说,被偏向染色体的已表达部分。此外,关于选择算法40修改Eshelman CHC遗传算法以便使用一个选择标准,该选择标准被偏向于选择具有更小数量的已表达基因的染色体而不是具有更大数量的已表达基因的染色体。因此,所述进化驱动朝着较少数量的已表达基因的方向。
虽然为了解释的目的描述并举例说明了经修改的Eshelman CHC算法,但是应当理解,其他的遗传算法可以被类似地适配成在每个染色体中采用所公开的可变数量的已表达基因、偏向共有基因的表达和传播、偏向更小数量的基因等等。
参考图4A和4B,组合所选择的亲代以产生后代染色体。在Eshelman CHC算法中,每个后代染色体是从两个亲代染色体导出的,并且通常每一对亲代染色体被用于产生两个后代染色体。然而,可以使用其他交叉组合。为了解释的目的,图3A和3B中的染色体70、72分别被配对为亲代染色体以产生两个后代染色体。在产生后代的过程中,所述亲代染色体70、72的共有基因值被复制到所述后代染色体中。对于亲代染色体70、72,该组共有基因值是{5,7,8,12,13,17,19,23,25}。在图4A中,第一个后代染色体以其出现在第一个亲代染色体70中的次序来接收所述共有基因值,而在图4B中,第二个后代染色体以其出现在第二个亲代染色体72中的次序来接收所述共有基因值。
在一些实施例中,所述共有基因值被复制到后代染色体中的与亲代染色体中相应的位置处,但是偏向于已表达基因的位置。在所描述的实施例中,如在图4A和4B中所示,通过把每一个共有基因值向左移位一个位置而获得这个偏向,也就是说朝着所述染色体的已表达子组基因80移位一个位置。由于所述已表达基因紧挨在已表达子组大小基因80的右边,因此这个向左移位具有把所述共有基因值偏向被表达的效果。
此外,至少在有些情况下,所述共有基因值在所述后代染色体中的排序可选地不同于所述共有基因值在所述亲代染色体中的排序。在所描述的实施例中,如在图4A和4B中所示,在所述亲代染色体中的两个或更多最左边的基因值是共有基因值的情况下,通过执行基因值交换来获得这个偏向。举例来说,在图4A中,第一个亲代染色体70的两个最左边的基因值17、8是共有基因值,因此它们以相反的顺序8、17被复制在第一个后代染色体中。类似地,第二个亲代染色体72中的两个共有基因值23、19以相反的顺序19、23被复制在第二个后代染色体中。更一般地说,如果所述亲代染色体的最左边的连续三个或更多基因值是共有基因,那么它们被左旋,其中所述亲代染色体的最左边的基因值被复制到三个或更多共有基因值的连续序列的最右端。
用于改变图4A和4B中举例说明的共有基因值的排序的方法就是一个实例。因为所述染色体群体12随着向左偏移共有基因值而进化,对于所述共有基因值来说,存在一种在有序基因序列的左边堆积的趋向。因此所述共有基因值趋向于被表达。所述排序改变趋向于产生促进进化变异的混合,并且防止最左边的共有基因值总是在每个后代染色体中被表达。
继续参考图4A和4B并且更进一步地参考图4C,后代染色体的那些未被共有基因值所填充的基因被亲代染色体70、72当中的一个或另一个所独有的基因值填充。所述实例亲代染色体70、72限定了包含12个独特基因值{1,2,3,4,9,10,16,18,20,21,22,24}的独特基因值的实例组84。随机选择器86选择其中一个独特基因值,以便填充所述后代染色体的在所述共有基因值被用尽之后所剩余的每一个基因。
随机的突变器90在随机或伪随机的基础上有选择地突变所述独特基因值。在所描述的实施例中,只有所述独特基因值受到选择性突变,其中所述独特基因值被应用于填充所述后代染色体的基因。不突变所述共有基因值。通过不突变所述共有基因值,促进共有基因值的跨代传播。通常来说,预期所述共有基因值往往很可能比独特基因值更能决定健康状况。
不突变所述共有基因值还促进了计算遗传进化朝着最优染色体的收敛。因为没有突变所述共有基因值,所以更容易地获得相对稳定跨代的染色体配置。这又允许所述独特基因值的突变率92比起对包含共有基因值的所有基因值进行有选择突变的情况更高。在一些实施例中,已经发现所述独特基因值的突变率大于5%是适当的。在一些实施例中,已经发现所述独特基因值的突变率在15%左右是适当的。相反地,当共有基因值和独特基因值两者都被有选择地突变时,突变率大于5%通常导致所述遗传进化的不良收敛特性。
在图4C中,随机选择的独特基因值被用于填充所述后代染色体的那些没有用共有基因值填充的基因。然而,可以采用其他的方法。举例来说,所述两个亲代染色体70、72的独特基因值可以被从左到右地配对,并且被半随机地选择用于在所述后代之间交换。因此,图4A的后代染色体的基因在这个方法中将从亲代染色体70接收到值{10,4,21,1,22和16},而图4B的后代染色体将从亲代染色体72接收到值{20,2,18,9,3和24}。然而,那些独特基因值的一半将被随机地在所述后代之间成对地交换。因此,举例来说,第三个序数位置基因值21和18、第五个序数位置基因值22和3以及第六个序数位置基因值16和24可能被随机地在两个后代之间交换。所述随机突变器90还会如前所述地对所述独特基因值进行操作。
参考图4D,Eshelman CHC遗传算法被更进一步地修改,以便为后代染色体产生适当的已表达子组大小基因80的值。所述实例亲代染色体70、72的已表达子组大小基因80的值分别是7和10。因此,所述后代染色体的已表达子组大小基因80的值应该位于7到10的闭区间内。可选地,该范围被扩展,以便提高所述遗传进化在达到具有更多或更少数量的已表达基因的染色体方面的有效性。在所描述的实施例中,所述范围被增大了范围Δx的一半,所述范围Δx在所述两个亲代染色体70、72的已表达子组大小基因80的值之间。这个扩展值被截取以便定义一个整数,并且被施加在更健康亲代的已表达子组大小基因80的值的方向上。在图4D中,假设已表达子组大小基因80的值为7的亲代染色体70比已表达子组大小基因80的值为10的亲代染色体72更健康。因此,所述范围从较低值7向下扩展Δx/2=INT[(10-7)/2]=INT[1.5]=1,从而所述亲代染色体70、72的已表达子组大小基因80的值定义闭区间[6,10]的范围。每个后代染色体的已表达子组大小基因80的值被随机地或伪随机地从范围[6,10]中选择。如果亲代染色体72比亲代染色体70更健康,那么所述扩展将是在染色体72的已表达子组大小基因80的值10之上,从而定义范围[7,11]以供选择。此外,如果所述扩展超出所选择的边界(例如大于染色体中的基因数量,或者小于1,或者小于所选择的已表达基因的最小数量),那么用于所述后代染色体已表达子组大小基因值的范围被适当地截取。
返回参考图1,相对于Eshelman CHC算法修改遗传算法10的选择算法40,以便偏向具有更小数量的已表达基因的染色体。较小数量的已表达基因对应于诊断测试50中的较小的测量子组52,并且降低了过度拟合所述学习案例22的可能性。在一些实施例中,分层选择被用于比较两个染色体。通过下列伪代码阐明一个这样的选择if(classification_errors(后代)<classification_errors(亲代))then用后代替换亲代if((classification_errors(后代)=classification_errors(亲代))and(sss(后代)<sss(亲代))) (2)then用后代替换亲代if((classification_errors(后代)=classification_errors(亲代))and(sss(后代)=sss(亲代)))then随机地选择是否用后代替换亲代其中,在伪代码(2)中classification_errors()是由分类器测试算法32确定的每个染色体的健康量度,并且利用其经优化的分类器功能来测量由该染色体产生的分类错误的数量;sss()是所述已表达子组大小基因80的值。适当地应用所述伪代码(2)如下(i)按照健康状况对亲代染色体群体的染色体进行排序;(ii)按照健康状况对后代染色体进行排序;(iii)利用伪代码(2)比较最健康的后代染色体和最不健康的亲代染色体,并且在适当情况下,在所述染色体群体中用所述后代染色体来替换所述亲代染色体;以及(iv)重复操作(iii),直到不用后代替换亲代(从而意味着剩余的后代中没有一个与最不健康的亲代一样健康)。
在选择亲代染色体以用于产生后代的过程中,可选地采用Eshelman CHC近亲交配预防机制。近亲交配预防防止在过于相似的亲代之间执行交叉。通常来说,关于所述亲代染色体的已表达基因来确定近亲交配预防。然而,由于在所述后代染色体中的已表达子组大小基因80的值可能比亲代染色体中的已表达子组大小基因80的一个或全部两个值更大,因此对于两个潜在亲代染色体的近亲交配预防适当地是关于这种配对所可能获得的后代染色体的已表达子组大小基因80的最大值而确定的。此外还可选地合并Eshelman CHC遗传算法的其他特征,例如提供软重启以抵制过早的收敛。
参考图5,其中说明了利用已表达子组大小基因80以及偏向更小数量的已表达基因的有效性。图5示出了一个散布图,其具有沿着纵座标(y轴)绘制的每个染色体的已表达子组大小基因80的值,以及沿着横坐标(x轴)绘制的试验数量(对应于时间)。对于图5中说明的运作,每个染色体的基因数量被设置为30,并且染色体群体12包含100个染色体。最初的染色体群体具有在1到30之间随机选择的已表达子组大小基因80的值。在遗传进化早期的初始区域100中,具有已表达子组大小基因80的较小值(举例来说小于大约10-12)的染色体灭绝。由于所述基因的值在所述最初染色体群体中是随机的,比起那些具有已表达子组大小基因80的较小值的染色体,对于那些具有已表达子组大小基因80的较大值的染色体来说,在给定染色体中存在一个或两个优良基因的几率更高。因此,具有较小值的染色体在所述初始区域100中灭绝。然而,在大约1,000次试验之后,其已表达子组大小基因80的值小于10的染色体开始重新出现。在1,000次试验之后,所述基因的值不再是随机的,而是已经开始从在先前世代中存活下来的亲代那里集成。于是,在大约40,000-50,000次试验时,其已表达子组大小基因80的值非常大的染色体开始灭绝。在40,000-50,000次试验之后,所述染色体群体12的染色体获得类似的准确度,因此对于已表达子组大小基因80的较小值的选择压力开始见效。超过50,000次试验之后,已表达子组大小基因80的平均值快速下降,并且减少到染色体群体12中的大多数的已表达子组大小基因80的值为3或4为止。在恰好处于100,000次试验之前的一点,经修改的Eshelman CHC遗传算法触发软重启,这是因为所述群体已经收敛。在所述软重启时,在1到30的闭区间之间的所述已表达子组大小基因80的值的整个范围被重新引入。进化的过程继续并且超出图5的边缘,在那里再次看到类似的动态(在图5中未示出)。
返回参考图1,利用训练案例26来训练每个分类器,所述训练案例26是学习案例22的子组。在训练之后,在测试案例28上测试所述分类器,所述测试案例28是学习案例22的另一个子组。所述交叉验证和噪声添加算法24在处理染色体群体12的每个新世代之前把学习案例22重新划分为训练案例26和测试案例28。利用把学习案例22划分为训练案例26和试验案例28的不同分割,重新评估从上一代存活下来的那些亲代染色体及其后代染色体。因此,为了使染色体传播几个世代并且因此在染色体群体12中散播它的基因,该染色体的表现必须始终优于平均水平,而始终如一的表现要求从许多不同的随机选择的训练组26的良好的一般化。把学习案例22划分为训练案例26和测试案例28的分割被称为交叉验证。可以使用各种交叉验证方法,例如舍去(leave-out)交叉验证、k折(k-fold)交叉验证等等。
继续参考图1,在一些实施例中,当学习案例22被划分为训练案例26和试验案例28时,所述交叉验证和噪声添加算法24把所选择的仿真噪声级引入到被测量的测试对象的测量组的值中。仿真噪声的引入抵消了所述分类功能对于测量误差的相关性的可能拟合。举例来说,如果当测量到癌症案例时所述测量仪器系统地读取得稍高,而对于没有癌症的案例则稍低,则所述遗传进化可以收敛在这些系统误差模式上。通过由所述交叉验证和噪声添加算法24可选地引入仿真噪声,干扰了对于所述进化搜索的每一代的测量。在一个方法中,根据下式添加高斯仿真噪声x’=x+(gauss()·x·cv (3)其中x是测量值,x’是添加了仿真噪声的测量值,cv是变异系数(即标准差除以均值x),gauss()是具有零均值和单位方差的高斯函数。在把学习案例22划分为训练和测试案例26、28之前执行仿真噪声的引入,其中在处理染色体群体12的每一个连续世代之前执行所述划分。
引入仿真噪声降低了遗传进化对于系统测量误差的敏感度,但是也减小了所述发现算法找到弱模式的趋势。对于一些生物信息测量组,已经发现变异系数(cv)在所添加的仿真高斯噪声中大于2%左右会防止收敛到较弱的生物学重要模式。
已经结合优选实施例描述了本发明。显然,在阅读和理解先前的详细说明之后,可以想到其他的修改和变化。本发明应当被看作是包含所有的这些修改和变化,只要它们落在所附权利要求书或其等效表述的范围之内。
权利要求
1.一种用于确定分类器的方法,该方法包括产生染色体的第一代染色体群体,每个染色体具有(i)指定相关测量组的子组的所选数量的基因;以及(ii)已表达子组大小基因,其具有区分所述染色体的已表达和未表达基因的值;关于无需参考未表达基因而评估的健康标准,计算地遗传进化包含所述已表达子组大小基因的所述染色体的基因,以便产生连续世代染色体群体;以及选择分类器,该分类器使用由所述遗传进化识别的染色体的所述已表达基因所指定的相关测量的所述子组。
2.如在权利要求1中所述的方法,其中,每个染色体的基因定义有序组,并且所述已表达子组大小基因包含把该有序组中的已表达和未表达基因分隔开的序数位置值。
3.如在权利要求2中所述的方法,其中所述遗传进化包括通过对当前染色体群体的所选择的亲代染色体进行配对来产生后代染色体,每个后代染色体的已表达子组大小基因值处在由所述亲代染色体的已表达子组大小基因值所限定的范围之内,其中该后代染色体从所述亲代染色体产生。
4.如在权利要求3中所述的方法,其中由所述亲代染色体的已表达子组大小基因值限定的所述范围包括以下各项的至少其中之一(i)比所述亲代染色体的已表达子组大小基因值当中的最大的一个更大的值;以及(ii)比所述亲代染色体的已表达子组大小基因值当中的最小的一个更小的值。
5.如在权利要求2中所述的方法,其中,所述有序基因组具有第一和第二末端,最靠近的第一末端的基因是已表达基因,并且所述遗传进化包括产生后代染色体,其中通过以下步骤从所述当前染色体群体的两个亲代染色体产生每个后代染色体(i)使用与两个亲代染色体共有的基因值来填充所述后代染色体的基因,其中在进行填充时利用所述两个亲代染色体当中的所选择的一个中的所述共有基因值的排序,并且使所述填充偏向所述后代染色体的有序基因组的第一末端;以及(ii)使用所述亲代染色体当中的一个或另一个所独有的基因值来填充剩余的基因。
6.如在权利要求5中所述的方法,其中,使用与两个亲代染色体共有的基因进行填充包括至少偶尔改变所述后代染色体中的所述共有基因值的排序,以使其不同于所述共有基因值在所述两个亲代染色体当中的所选择的一个中的排序。
7.如在权利要求1中所述的方法,其中,所述遗传进化包括产生后代染色体,所述后代染色体具有(i)从一个组中选择的不同于已表达子组大小基因的基因值,所述组包括不同于所述亲代染色体的已表达子组大小基因的所述亲代染色体的基因值的集合;以及(ii)在由所述亲代染色体的已表达子组大小基因值限定的范围内选择的已表达子组大小基因的值。
8.如在权利要求1中所述的方法,其中,所述遗传进化包括产生后代染色体,其中通过以下步骤从所述当前染色体群体的两个亲代染色体产生每个后代染色体(i)使用与两个亲代染色体共有的基因值来填充所述后代染色体的基因;以及(ii)使用所述亲代染色体当中的一个或另一个所独有的基因值来填充剩余的基因;以及有选择地突变所述亲代染色体当中的一个或另一个所独有的后代染色体的基因值,而不突变与两个亲代染色体共有的后代染色体的基因值,对应于有选择地突变所述亲代染色体当中的一个或另一个所独有的基因值的突变率大于5%。
9.如在权利要求1中所述的方法,其中,所述计算遗传进化包括从所述当代染色体群体的所选择的染色体组合产生后代染色体;以及在下面的其中一种情况下使用所选择的后代染色体来替换所述当代染色体群体的所选择的染色体(i)所选择的后代染色体比所述当代染色体群体的所选择的染色体更健康;或者(ii)所选择的后代染色体与所述当代染色体群体的所选择的染色体一样健康,并且所选择的后代染色体比所述当代染色体群体的所选择的染色体具有更少的已表达基因。
10.如在权利要求9中所述的方法,其中所述所选择的后代染色体是最健康的后代染色体,并且所述当代染色体群体的所选择的染色体是当代染色体群体的最不健康的染色体;以及重复所述替换,直到所述最健康的后代染色体比所述当代染色体群体的最不健康的染色体更不健康。
11.如在权利要求1中所述的方法,其中,所述健康标准指示由每个染色体的已表达基因指定的相关测量的子组的健康状况,以用于将一组测量对象分类为两个或更多分类,并且所述方法进一步包括在产生每个连续世代染色体群体之前,在所述测量对象的测量值中引入所选择的仿真噪声级。
12.如在权利要求1中所述的方法,其中,所述健康标准指示由每个染色体的已表达基因指定的相关测量的子组的健康状况,以用于将一组测量对象分类成两个或更多分类,并且所述方法进一步包括在产生每个连续世代染色体群体之前,随机地或伪随机地将一组测量对象划分为训练组和测试组。
13.一种用于确定医学对象是否具有所关心的病变的医学诊断测试,该方法包括利用由权利要求1的方法所确定的医学诊断分类器对该医学对象的测量进行分类,其中所述相关的测量组表征有机高分子的浓度,并且所述健康标准指示由每个染色体的已表达基因指定的相关测量的子组的健康状况,以用于将医学对象分类成具有所关心的病变的阳性组和不具有所关心的病变的阴性组。
14.如在权利要求13中所述的方法,其中,表征医学对象中的有机高分子浓度的所述相关测量组是以下各项的其中之一利用从所述医学对象身上获取的生物样本处理的微阵列的点的一组测量;以及对于从所述医学对象身上获取的生物样本测量的质谱图的一组信号电平。
15.一种用于确定分类器的方法,该方法包括产生染色体的第一代染色体群体,每个染色体具有指定相关测量组的子组的所选数量的基因;计算地遗传进化所述染色体的基因,以便产生连续世代染色体群体,产生每个后继世代染色体群体包括通过以下步骤从所述当前染色体群体的亲代染色体产生后代染色体(i)使用与两个亲代染色体共有的基因值来填充所述后代染色体的基因,以及(ii)使用所述亲代染色体当中的一个或另一个所独有的基因值来填充剩余的基因;有选择地突变所述亲代染色体当中的一个或另一个所独有的所述后代染色体的基因值,而不突变所述后代染色体的与两个亲代染色体共有的基因值;以及根据每个染色体的健康状况,利用所述后代染色体来更新所述染色体群体,其中所述健康状况是利用由该染色体的基因指定的相关测量的子组确定的;以及选择分类器,该分类器使用由所述遗传进化识别的染色体的基因所指定的相关测量的子组。
16.如在权利要求15中所述的方法,其中,对于有选择地突变所述亲代染色体当中的一个或另一个所独有的基因值的突变率大于5%。
17.如在权利要求15中所述的方法,其中只有每个染色体的基因的一个子组是已表达基因,并且利用由每个染色体的已表达基因所指定的相关测量的子组来确定该染色体的健康状况。
18.一种用于确定医学对象是否具有所关心的病变的医学诊断测试,该方法包括利用由权利要求15的方法所确定的医学诊断分类器对该医学对象的测量进行分类,其中所述相关的测量组表征有机高分子的浓度,并且所述健康标准量化由每个染色体的基因指定的相关测量的子组的有效性,以用于将医学对象分类成具有所关心的病变的阳性组和不具有所关心的病变的阴性组。
19.一种用于确定分类器的方法,该方法包括产生染色体的第一代染色体群体,每个染色体具有指定相关测量组的子组的所选数量的基因;计算地遗传进化所述染色体的基因,以便产生连续世代染色体群体,产生每个后继世代染色体群体包括在对应于一组对象的测量组的值中引入所选择的仿真噪声级;通过对所述当前染色体群体的染色体进行配对而产生后代染色体;有选择地突变所述后代染色体的基因;以及根据每个染色体的健康状况,利用所述后代染色体来更新所述染色体群体,其中所述健康状况是关于具有所引入的仿真噪声的所述对象组的测量值而确定的;以及选择分类器,该分类器使用由所述遗传进化识别的染色体的基因所指定的相关测量的子组。
20.一种用于确定医学对象是否具有所关心的病变的医学诊断测试,该方法包括利用由权利要求19的方法所确定的医学诊断分类器对该医学对象的测量进行分类,其中所述相关的测量组表征有机高分子的浓度,并且所述健康标准量化由每个染色体的基因指定的相关测量的子组的有效性,以用于将医学对象分类成具有所关心的病变的阳性组和不具有所关心的病变的阴性组。
21.一种基因优化方法,包括计算地遗传进化染色体群体的基因,所述进化包括进化每个染色体中的多个已表达基因,并且采用无需参考每个染色体的未表达基因而评估的健康标准;以及选择通过所述遗传进化产生的经优化的染色体。
22.如在权利要求21中所述的方法,其中,所述遗传进化包括通过对所述当前染色体群体的所选择的亲代染色体进行配对而产生后代染色体,每个后代染色体的已表达基因的数量处于由从中产生该后代染色体的所述亲代染色体的已表达基因的数量所限定的范围内。
23.如在权利要求22中所述的方法,其中,由所述亲代染色体的已表达基因的数量限定的所述范围包含以下各项的至少其中之一(i)比任何所述亲代染色体中的已表达基因的最大数量更大的值;以及(ii)比任何所述亲代染色体中的已表达基因的最小数量更小的值。
24.如在权利要求21中所述的方法,其中,所述遗传进化包括通过对所述当前染色体群体的两个所选择的亲代染色体进行配对来产生后代染色体;以及有选择地突变所述两个亲代染色体当中的一个或另一个所独有的所述后代染色体的基因,而不突变与两个亲代染色体共有的所述后代染色体的基因。
25.如在权利要求21中所述的方法,其中,所述遗传进化包括利用选择标准来选择存活到每个连续世代中的染色体,该选择标准偏向于选择具有较小数量的已表达基因的染色体而不是具有较大数量的已表达基因的染色体。
全文摘要
在一种遗传优化方法中,计算地遗传进化染色体群体的基因。所述进化包括进化每一个染色体中的多个已表达基因,以及采用一种无需参考每个染色体的未表达基因而被评估的健康标准。选择通过所述遗传进化产生的优化的染色体。
文档编号G06F19/00GK1957353SQ200580004378
公开日2007年5月2日 申请日期2005年2月1日 优先权日2004年2月10日
发明者J·D·沙菲尔, M·R·辛普森 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1