样本数据的分类的制作方法

文档序号:6593390阅读:821来源:国知局
专利名称:样本数据的分类的制作方法
技术领域
本发明涉及分类,特别地涉及对包含噪声测量数据的样本进行分类。更特别 地,本发明涉及对生物分子数据进行分类。
背景技术
在分子诊断学领域中,微阵列数据和蛋白质组学数据正日益用于发展对患者进 行分类的新的测试。K.Y.Yeung 和 R.E.Bumgarner 在 Genome Biology,2004,4 R83 中 的"Multiclass classification of microarray data with repeated measurements application to cancer"中,描述了这种测试的一个实例。对微阵列数据和蛋白质组学数据的分类可以涉及例如诊断和患者分层次。找到 正确的生物标志物(例如基因或蛋白质的正确集合)以将该分类用作基础,并且找到将这 些生物标志物的测量转化为分类的正确规则是最重要的,因为这可以对所述分类的精确 性产生巨大影响。给定所述生物标志物和所述分类规则,新病例可以在临床装置中或在 普通的专业人员处被分类。微阵列通过促进(facilitate)同时测量每个样本的数千个基因表达水平的能力而向 生物学家提供了重要工具。对微阵列进行分类的主要任务之一是将基因表达测量(所述 特征)的集合映射到给定的目标标记(即,患者的类别)。与测量人的体温或人的身高相 比,测量基因表达水平是非常具有挑战性的、昂贵的和耗时的。它是多步骤的过程,其 中必须执行许多单独的工序。这些步骤中的一些包含不可能完全受控并且可能导致所述 分类规则不可靠的情况。

发明内容
取得对生物分子的改进的分类将是有利的。为了更好地解决这个问题,在本发 明的第一方面,提出了一种分类系统,包括输入端,用于接收测量数据,该测量数据包括对待分类的样本的多个数值特征 和所述多个数值特征中各个数值特征的多个相应的误差估计的测量;统计模块,用于将各个概率密度函数与所述多个数值特征中各个数值特征相关 联,其中所述各个概率密度函数依赖于对所述各个数值特征中的相应的误差估计;复制模块,用于产生所述样本的多个扰动的副本,所述扰动的副本包括扰动的 特征,其中所述多个数值特征中各个数值特征根据对应的各个概率密度函数被随机扰动 以获得所述扰动的特征;分类器,用于基于扰动的特征并且通过应用预定的分类标准对所述多个扰动的 副本中的各个副本进行分类以获得分类的副本,其中每个分类的副本具有与其相关联的 类别;分析器,用于基于对所述分类的副本的统计分析对待分类的样本进行分类以获 得样本分类。
因为所述副本的数值特征被扰动,所以所述分类一般地对应所有副本而言将不 总是相同的。而且,由于所述副本的特征根据归因于所测量的特征中存在的噪声的概率 分布被扰动,所以被分类为属于特定类别的副本的数量与待分类的样本针对(in view of) 噪声属于该特定类别的概率或可能性有关。因此,所述分析器可以考虑该概率以提供改 进的分类和/或提供更多的关于分类可靠性的见识。优选地,所述统计模块依赖于所述误差估计改变方差,例如与误差估计成比例 地变化。例如,所述分析器将具有最高概率或可能性的类别分配给所述样本。这提高了 所述分类的精确性(例如特异性和/或敏感性)。优选地,所述分析器被设置用于计算指示样本属于特定类别的可能性的值。这 向所述分类系统的用户给出了他可以用来确定他是否能够信任(rely on)所述分类的指 示。所述可能性可以例如借助统计假设测试的概率值或ρ-值指示。优选地,计算多个可能性值,其中每个可能性值指示所述样本属于各个特定类 别的概率或可能性的值。这允许用户获得对所述样本可能所属的可能的类别的更好的理 解,这可以用于确定是否需要附加的诊断。为了获得良好的分类器,可以使用包括每个样本的多个扰动的副本的训练 (training)数据集来训练所述分类器。在独立权利要求中定义了本发明的其他范围。从属权利要求定义了有利的实施 例。


将参照附图进一步阐释并描述本发明的这些和其他方面,在附图中图1是分类系统的框图;图2是示出分类系统的处理步骤的流程图;图3是示出训练分类器并利用训练过的分类器执行分类的流程图;图4是示出选择合适的特征子集的过程的流程图;图5是示出在特征选择过程中在单独的特征中使用测量噪声的过程的流程图;图6是硬件架构的框图。
具体实施例方式分子测量(比如微阵列数据)的困难之一在于,它们带有很大的噪声。微阵列 数据中该噪声的来源之一是通过杂交中的变异给出的。然而,微阵列测量不仅给出了基 因表达的指示,而且给出了对尤其是所述阵列上的杂交差异所引入的误差的估计。该 误差估计在某种程度上已经在生物标志物发现阶段中被使用,例如L.J.van’ t Veer等人 在 Nature,415 530-536, 2002 中“Gene expression profiling predicts clinical outcome of breast cancer”,(在下文中Van,t Veer等人)中描述的预过滤步骤中被使用。如果所述误差估计没有用在最终的分类中,则新病例的分类仅仅基于基因表达 测量,而不考虑这些测量可能是非常不准确的。在实施例中,基于实际测量,病例不仅仅被分类一次,而是多次,其中每次根据给定的误差估计添加扰动噪声。这可以更详细地被执行如下。通常,给出生物标志物中使用的η个基因和针对基因的测量Xl(i = 1,…, η)。这些基因测量被用在分类器中,该分类器可被视为函数/(刃,并且在所述病例的数据 无=(、...,xj上被调用一次。如果每个测量X1的误差估计由ei表示,则通过将扰动噪声加入到来创建新例子 无。这种新例子或副本(replica)被创建多次(例如1000次)。如果例如所述误差是正态 分布的(在微阵列数据中这是典型的情况),并且e,指示所述测量所估计的标准差,则新 例子通过下式生成X1i=Xi +N(0,et),其中N(0,ei)是均值为零且标准差为^的正态分布。于是,分析器f被应用于 所述副本的每一个以获得分类的副本。分类的副本的结果被结合成为一个输出。可以适 用于后者的规则是,使用多数票决,其中利用特定类别分类的副本代表该类别的投票。 此外,可以显示每票出现的频率,以给出由测量误差引入的不确定性的指示。于是,这 种信息可以用在临床决策支持系统(CDSS)中以在最终建议中考虑。这些技术不仅可以在微阵列数据上使用,而且可以在其他数据上使用,只要估 计对所述测量噪声是可用的。该噪声可以归因于微阵列试验中的技术噪声,而且可以归 因于例如来自基于重复试验的噪声模型的噪声。当应用上述技术时,所述测量误差影响分类输出,因为所述技术不仅使用实际 测量,而且使用误差估计。而且,所述方法可能不仅仅给出一个分类输出,而且给出不 同输出的概率分布。图1示出用于对生物分子数据进行分类的分类系统100的实施例。该分类系统 100具有用于接收测量数据的输入端。所述测量数据可以包括例如下列至少一个(a)基因表达数据,(b) DNA转录本数据(不仅测量基因表达,而且测量可以在细胞中表达的和可以 影响细胞功能的其他DNA片段),或(c)蛋白质组学数据(例如,样本中多个蛋白质的浓度)。上述数据类型(a)和(b)可以典型地使用微阵列或化验(assay)来测量。数据类 型(c)可以典型地使用质谱仪来测量。然而,也可以使用其他类型的测量。分类系统100的输入端被设置用于接收待分类样本的多个特征102的测量。本 文中,所述特征包括例如上述(a)、(b)和(c)中概述的数据类型。例如,一个特征指示 样本中特定物质的浓度。一个特征可以表示特定基因或DNA转录本已经表达所达到的程 度。分类系统100的输入端还被设置用于接收所述多个特征中各个特征的多个对应的误 差估计104。这些误差估计提供了特征的测量可以被信任的程度的指示。系统100包括统计模块106,其用于将各个概率密度函数108与所述多个特征中 各个特征相关联。概率密度函数108可以表示测量误差的概率密度函数,在该情况下所 述概率密度函数典型地具有均值零和依赖于误差估计的方差。可替代地,概率密度函数 108可以表示特征本身的概率密度函数,在该情况下这种概率密度函数的均值典型地对应 于所述特征的测量且方差依赖于特征的误差估计。基于概率密度函数108的通常类型的 概率分布对于所有特征而言可以是相同的。典型地,正态分布可以用于所述概率密度函数,其中方差依赖于相应的误差估计104且均值为零(或对应于所测量的特征)。然而, 可以使用其他概率密度函数,特别是当已知测量具有不是正态分布的误差分布时。在分 类系统100的直接实现方式中,对于每个特征,假定独立的概率分布,然而在更高级的 实现方式中,所述概率密度函数可以是多变量的并且依赖于若干个或所有测量的特征102 和/或误差估计104。系统100包括复制模块110,其用于产生所述样本的多个扰动的副本112,即多 个特征102的扰动的副本(并且可能是多个误差估计104的扰动的副本,其中所述误差估 计可以或不可以被扰动)。为了产生扰动的副本,复制模块110根据对应的各个概率密度 函数随机扰动特征102。这些对应的概率密度函数基于误差估计可以具有的不同的方差, 因为误差估计通过统计模块106与所述特征相关联。如上所讨论,在直接实现方式中, 所述概率密度函数都可以具有相同类型的分布(例如正态分布)。所述扰动的副本包括所 述扰动的特征。系统100包括分类器114,其用于基于所述扰动的特征对所述多个扰动的副本 中的各个副本进行分类。该分类器通过应用预定的分类标准评估扰动的副本的扰动的特 征,以获得分类的副本116。在本领域,已知许多种类的分类器。适合的分类器可以是 例如最近均值分类器或支持向量机。系统100包括分析器118,其用于基于对分类的副本116的统计分析而对待分类 的样本进行分类,以获得样本类别120。由分析器118执行的统计分析可以包括投票系统 (例如,具有最多扰动副本的类别变成所述样本的分类)。为了计算指示样本属于特定类别的可能性的值,可以计算所述副本在所述样本 类别中的百分比。这给出了样本分类的可靠性的指示,其可以被操作者用来确定附加的 测量或任何其他的诊断活动是否是必需的,以便获得具有足够确定性的诊断。所述可能 性可以是例如概率或ρ-值(score)(置信度量)。分析器118还可以被设置为计算多个可能性的值,其中每个(each respective)可
能性值指示样本属于相应的特定类别的概率、可能性或置信水平(confidence)。这可以用 于例如发现所述类别之一是否比任何其他类别的可能性大得多,或是否两个或更多类别 的可能性近似相等。在后一种情况下,所述输出可能不太可靠,并且这是易于知道的。 如果它具有非常低的可能性,则这也使得排除所述类别的一个或多个成为可能。在仍然提供良好结果的特别高效的实施例中,统计模块106被设置用于将正态 分布与零均值和与误差估计成比例的标准差相关联。分类器114可以被设置用于基于所述各个特征的相应的误差估计将相应的权重 应用到单独的副本的所述多个特征中各个特征。这样,与具有较小误差估计的特征的影 响相比,具有较大误差估计的特征的影响被减少。这改进了所述扰动的副本的单独分类 并且可以用于减少具有非常大的误差估计的特征的影响。例如,假设所述分类器使用最近质心(nearest centroid)方法,其中对于每一个类
别给定了平均剖面(质心)。可以通过计算到不同质心的距离并选择最近的质心来对样本 (或更特别地,扰动的副本)进行分类。随后,如果待分类的患者的某个测量带有很大 噪声,则该测量对分类的影响可以通过改变所述距离的计算来减少(例如,所述特征可 以利用与所述特征测量的估计误差成反比的权值来加权)。如果使用k-最近邻居规则,则也可以加权测量对所使用的距离度量的贡献。这不仅可以基于待分类的患者的测量误 差,而且基于“邻居”测量的误差。这可以用在微阵列数据上,而且可以用在其他数据 上,只要估计对所述测量噪声而言是可用的。这不仅包括比如微阵列试验中给出的技术 噪声,而且它可以包括来自基于重复测量的噪声模型的噪声。分类系统100可以被建成为测量系统,比如微阵列系统或化验或质谱仪。它也 可以被实现为将在任何合适的处理设备(比如工作站、个人计算机、PDA等)上执行的 计算机程序产品。优选地,所述处理设备经由数据链路(诸如USB之类的直接链路,或 经由比如以太网或无线LAN或因特网之类的网络)耦合到所述测量系统。所述分析器的 结果可以被显示在处理设备的显示器上或显示在单独的显示器上,它可以被印刷或传递 到另一个软件模块或另一个设备以供进一步处理。例如,所述分析器的输出可以是临床 决策支持系统的输入。这种临床决策支持系统可以基于分类系统100的输出和可以用于 该临床决策支持系统的任何其他数据而产生诊断。所述分析器的输出也可以用在计算机 辅助检测和/或计算机辅助诊断系统中。典型地,分类器114需要训练,以便给出可靠的分类结果。例如所述扰动的副 本的优点也可以在训练过程中使用。为此,可以提供训练数据集发生器和训练模块。这 些项目在附图中没有示出。为了训练分类器114,所述训练数据集发生器生成训练数据 集。优选地,所述训练数据集发生器被设置用于将多个扰动的副本包括在该训练数据集 中。例如,它以包含多个样本的测量的特征的训练数据集开始。这些测量的特征例如 是从微化验中获得的,并且优选地伴随有地面实况(groundtruth)分类。每个样本的测量 的特征被多次复制以获得每个样本的多个扰动的副本。所述训练模块用于使用由此生成 的训练数据集训练所述分类器。在训练之后,训练过的分类器可以用于对新样本进行分 类,优选地结合该新样本的扰动副本的组来进行。图2示出对生物分子数据进行分类的方法的处理步骤。该方法在步骤200中例如 响应于用户输入命令而开始。在步骤202中,接收测量数据。所述测量数据包括待分类 样本的多个特征102的测量和所述多个特征中各个特征的多个相应的误差估计104。在步 骤204中,将各个概率密度函数108与所述多个特征中的各个特征相关联。所述各个概 率密度函数的各自的方差依赖于各个特征的相应误差估计。在步骤206中,产生所述样 本的多个扰动的副本112。所述扰动的副本包括扰动的特征。所述多个特征中的各个特 征根据对应的概率密度函数被随机扰动以获得所述扰动特征。在步骤208中,基于所述 扰动特征并通过应用预定的分类标准对所述多个扰动副本中的各个副本进行分类。这产 生了分类的副本116。结果,每个分类的副本具有与其相关联的类别。在步骤210中, 基于对分类的副本116的统计分析对所述样本进行分类以获得样本分类120。这种方法可以借助电子电路或优选地借助包括可机读指令的计算机程序产品来 实现。图6示出适用于实现图1的系统和/或图2的方法以及本文描述的其他技术的硬 件架构。所示出的硬件架构仅仅是一个实例。该图示出了处理器602和存储器606。计 算机程序产品可以装载到存储器606 (例如ROM或RAM存储器)中,并且处理器602被 设置为执行借助可机读指令定义的并且存储在存储器606中的步骤。所述计算机程序产 品包括应用本文中所描述的一个或多个技术所需的可机读指令。输入端604可以用于触发某些动作,比如数据输入、数据处理、开始分类、控制显像以及结果的其他输出。例 如,显示器612提供了显示分类结果的方式。通信端口 608可以可能地经由上述网络连 接到例如微化验。通信端口 608也可以连接到进一步处理所述系统100或所述方法的输 出的设备,例如以提供决策支持。可替代地,可以借助可移动媒体设备610(例如,DVD 读取器或CD-ROM读取器或闪存USB棒)提供所述数据。如果可移动媒体设备具有写 入能力(例如,它是DVD+RW兼容的,或它是闪存USB棒),也可以将分类系统100的 最后结果和/或中间结果输出到可移动媒体。微阵列是固有的噪声技术,该技术在其单独的测量中具有变化的不确定程度。 微阵列测量中的不确定程度可以经由噪声模型而被量化,所述噪声模型试图量化干扰测 量过程的不同的源。所述噪声模型例如以置信区间或P-值形式提供关于微阵列测量的变 化性的信息。该信息可以被传播到差异表达或聚类任务的确定中。然而,所述变化性信 息也可以在分类问题中使用。这种特征噪声对特征选择和分类具有影响。微阵列可以经由杂交的强度测量间接地测量基因表达。所述测量的杂交的强度 近似地与样本中mRNA的量成比例。可能地,这些测量的最重要的用途在于,研究基因 表达在不同条件下的变化。在双色阵列中,两个mRNA源竞争性地被杂交到相同的阵 列。每探针(probe)获得两个强度度量I1G, j)和I2(i,j),其中i是微阵列的索引,而j 表示“基因”或目标序列。通常,我们对所述强度测量的对数比感兴趣,该对数比由下 式给出
(J Q -S ^Xij = Iog10.
yhihj))
J (i ·χ比值^^被称为倍数变化(fold-change)。注意到,当两个强度相等时,χ 为
零。非零的对数比值反映测量的强度在所述单独的强度之间的变化。例如,2的对数比 意味着(imply)强度I2是强度I1的IO2 = 100倍。对这些倍数变化取对数具有几个优点, 因为它易于使得另外更倾斜的强度分布对称并且它相似地处理上下调整,例如
Γ π 丨, .IOOOxl ,, . 10 ..I log10(—) I=I log10(—) ι。如前所述,单独的微阵列强度测量带有很大的噪声。所谓的误差模型向每个强 度测量提供关于其变化性的估计。结果,所述特征值X,也将是随机的。在两个前述研究中使用的数据集被用于评估本文所公开的技术的性能。这两个 研究关于(deal with)都显现(develop)乳腺癌的女性患者群。Van ‘t Veer等人的目的是 确定被假定存在于所切除的肿瘤组织中的基因表达标记(signature),该基因表达标记可 以用于预测患者在5年内是否将会显现远程转移。这些患者是所谓的淋巴结阴性,即在 诊断时,它们的局部淋巴结中没有肿瘤细胞。Van ‘t Veer等人的数据包括78个患者的训练集合和19个患者的有效集合。 Vande Vijver 等人在 New England Journal of Medicine,347(25) 1999-2009,Dec.2002, Evaluation Studies 的"A gene-expression signature as a predictor of survival in breast cancer”(下文Van de Vijver等人)中描述了其他数据集。Van de Vijver等人治疗了 295
个患者的群组,其用于进一步验证(validate)从如Van ‘t Veer等人处得到的标记的预测
9值。两个研究使用相同的微阵列和协议,并且因此所述数据可以被共享(pool)。在本研 究中,两个研究的数据被结合成78个患者的训练集合和106个患者的有效集合。值得注 意的是,Vande Vijver等人包括淋巴结阴性(151)和淋巴结阳性患者(144)。Van ‘tVeer 等人和Van de Vijver等人中患者群重叠,因为295个病例群组包含Van de Veer等人中也存 在的61个训练和3个有效的病例。为了获得均质的总体,仅仅考虑淋巴结阴性的病例。 19个病例的原始有效集扩展有151-(61+3) = 87个病例。这提供了更大的有效集,其包 含在总共19+87 = 106个病例中。图3示出训练分类器和利用训练过的分类器执行分类的基本过程。在步骤300 中,所述过程开始。方框301 (其包含步骤302和304)指示训练分类器中所包含的步骤。 步骤306示出利用训练过的分类器执行分类。在步骤302中,提供训练数据集如下,以 用于训练分类器。令Ig表示属于良好预后的类别的 个患者的集合,而Ip表示属于不良 预后的np个患者的集合。患者i的类别标签用L1表示。在步骤304中,计算平均良好剖 面Xg和平均不良剖面xp。用X1表示包含患者i的表达水平的向量。平均良好剖面Xg和 平均不良剖面Xp被定义为
权利要求
1.一种用于对生物分子数据进行分类的分类系统(100),包括输入端,用于接收测量数据,该测量数据包括对待分类的样本的多个数值特征(102) 和所述多个数值特征中各个数值特征的多个相应的误差估计(104)的测量;统计模块(106),用于将各个概率密度函数(108)与所述多个数值特征中各个数值特 征相关联,其中所述各个概率密度函数依赖于所述各个数值特征的相应的误差估计;复制模块(110),用于产生所述样本的多个扰动的副本(112),所述扰动的副本包括 扰动的特征,其中所述多个数值特征中各个数值特征根据对应的各个概率密度函数被随 机扰动以获得所述扰动的特征;分类器(114),用于基于扰动的特征并且通过应用预定的分类标准对所述多个扰动的 副本中的各个副本进行分类以获得分类的副本(116),其中每个分类的副本具有与其相关 联的类别;分析器(118),用于基于对多个所述分类的副本(116)的统计分析对待分类的样本进 行分类以获得样本分类(120)。
2.根据权利要求1的分类系统,其中所述分析器被设置用于计算指示样本属于特定类 别的可能性的值。
3.根据权利要求2的分类系统,其中所述分析器被设置用于计算多个可能性值,其中 每个相应的可能性值指示样本属于相应的特定类别的可能性。
4.根据权利要求1的分类系统,其中所述分析器包括用于建立与最大数量的扰动的副 本相关联的类别的装置和用于根据具有最大数量的扰动副本的类别对样本进行分类的装置。
5.根据权利要求1的分类系统,其中所述各个概率密度函数分别是具有基于所述误差 估计的相应的标准差的各个正态分布,并且其中所述复制模块包括用于根据各个正态分 布之一产生值以获得扰动特征的装置。
6.根据权利要求1的分类系统,其中所述分类器包括最近均值分类器。
7.根据权利要求1的分类系统,其中所述分类器被设置用于基于所述各个数值特征的 相应误差估计将各个权重应用到单独的副本的所述多个数值特征中的各个数值特征,其 中与具有较小误差估计的数值特征的影响相比,具有较大误差估计的数值特征的影响被 减少。
8.根据权利要求1的分类系统,其中所述输入端被设置用于接收包括以下至少一个的 测量数据基因表达数据,DNA转录本数据,和蛋白质组学数据。
9.根据权利要求1的分类系统,进一步包括用于向输入端提供测量数据的化验读取 器。
10.根据权利要求1的分类系统,进一步包括临床决策支持系统,其中该临床决策支 持系统被设置用于接收所述样本分类并基于该样本分类提供诊断。
11.根据权利要求1的分类系统,进一步包括训练数据集生成器,用于生成训练数据集,其中该训练数据集生成器被设置用于在该训练数据集中包括多个副本;以及训练模块,用于基于所述训练数据集训练所述分类器以获得适用于对新样本和/或 新样本的副本进行分类的训练过的分类器。
12.—种对生物分子数据进行分类的方法,包括接收(202)测量数据,该测量数据包括对待分类的样本的多个数值特征(102)和所述 多个数值特征中各个数值特征的多个相应的误差估计(104)的测量;将各个概率密度函数(108)与所述多个数值特征中各个数值特征相关联(204),其中 所述各个概率密度函数依赖于对所述各个数值特征的相应的误差估计;产生(206)所述样本的多个扰动的副本(112),所述扰动的副本包括扰动的特征,其 中所述多个数值特征中各个数值特征根据对应的各个概率密度函数被随机扰动以获得所 述扰动的特征;基于扰动的特征并且通过应用预定的分类标准对所述多个扰动的副本中的各个副本 进行分类(208)以获得分类的副本(116),其中每个分类的副本具有与其相关联的类别; 基于对所述分类的副本(116)的统计分析对待分类的样本进行分类(210)以获得样本 分类(120)。
13.一种计算机程序产品,包括用于使得处理器执行根据权利要求12的方法的可机读 指令。
全文摘要
提供一种用于对生物分子数据进行分类的分类系统(100)。该系统的输入端接收待分类样本的多个特征(102)和多个相应的误差估计(104)。统计模块(106)将概率密度函数(108)与所述特征相关联,其中所述概率密度函数的方差(variance)依赖于所述误差估计。复制模块(110)产生所述样本的多个扰动的(perturbed)副本(replicas)(112),其中所述特征根据对应的各个概率密度函数被随机扰动。分类器(114)基于所述扰动的特征对所述扰动的副本进行分类。分析器(118)基于对所述分类的副本(116)的统计分析将待分类的样本进行分类以获得样本分类(120)。
文档编号G06F19/20GK102016881SQ200980114561
公开日2011年4月13日 申请日期2009年4月21日 优先权日2008年4月25日
发明者H·M·J·桑特罗普, R·范登哈姆, W·F·J·弗黑格 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1