用于通过集成的偏差校正和分类预测生成生物标记签名的系统和方法

文档序号:6534640阅读:157来源:国知局
用于通过集成的偏差校正和分类预测生成生物标记签名的系统和方法
【专利摘要】本文详述了用于按集成方式校正数据集并对数据集进行分类的系统和方法。训练数据集、训练分类集和测试数据集被接收。对于所述训练数据集,通过将机器学习技术应用到训练数据集和训练分类集来生成第一分类器,并且通过根据第一分类器对测试数据集中的元素进行分类来生成第一测试分类集。对于多次迭代中的每一次,训练数据集被变换,测试数据集被变换,并且通过将机器学习技术应用到经变换的训练数据集来生成第二分类器。根据第二分类器来生成第二测试分类集,并且将第一测试分类集与第二测试分类集相比较。
【专利说明】用于通过集成的偏差校正和分类预测生成生物标记签名的 系统和方法
[0001] 相关申请的交叉引用
[0002] 本申请根据35U.S.C§ 119要求2012年6月21日递交的、题为"SYSTEMSAND METHODSFORGENERATINGBIOMARKERSIGNATURESWITHINTEGRATEDBIASCORRECTIONAND CLASSPREDICTION"的美国临时专利申请No. 61/662, 792的优先权,该美国临时专利申请被 完整结合于此。

【背景技术】
[0003] 在生物医学领域,识别表明特定生物状态的物质即生物标记(biomarker)很重 要。随着基因组学和蛋白质组学的新技术出现,生物标记对于生物发现、药品研发和健康护 理正变得越来越重要。生物标记不仅对于很多疾病的诊断和预后有用,而且对于理解疗法 的发展基础有用。生物标记的成功和有效识别可以加速新药品研发过程。通过疗法与诊断 和预后的结合,生物标记识别还将增强当前医疗的质量,因而在药物遗传学、药物基因组学 和药物蛋白质组学的使用中扮演重要角色。
[0004] 包括高吞吐量筛选在内的基因组学和蛋白质组学分析提供了关于细胞中表达的 蛋白质的数量和形式的丰富信息并提供了针对每个细胞识别特定细胞状态的被表达的蛋 白质特性的谱的潜力。在某些情况下,该细胞状态可能是与疾病相关的异常生理反应的特 征。结果,识别患病病人的细胞状态并与正常病人的相应细胞状态进行比较可以提供诊断 和治疗疾病的机会。
[0005] 这些高吞吐量筛选技术提供了基因表达信息的大数据集。研究人员已尝试研发用 于将这些数据集组织到可再现地诊断不同数量的个体的模式中的方法。一种方法是汇集来 自多个源的数据以形成组合的数据集,然后将数据集划分成发现/训练集和测试/验证集。 然而,相对于可用数量的样本,转录谱数据和蛋白质表达谱数据二者常常由大量变量来表 征。
[0006] 来自控制或病人群的试样的表达谱之间的观察到的差异通常被若干因素掩盖,包 括疾病或控制群体内的未知子表型或生物学差异、由研究方案的差别造成的依位置而定的 偏差、试样处理、由仪器条件(例如,芯片批次等)的差别造成的偏差以及由测量误差造成 的变化。一些技术尝试针对数据样本中的偏差进行校正(所述偏差例如可能源于数据集中 表不的一类样本多于另一类)。
[0007] 若干基于计算机的方法已被研发以找出最佳地解释疾病和控制样本之间的差别 的一组特征(标记)。某些早期方法包括诸如LIMM之类的统计测试、用于识别与乳腺癌有 关的生物标记的FDA批准的ma_aprint技术、诸如支撑向量机(SVM)之类的逻辑回归技术 和机器学习方法。一般地,从机器学习的角度,生物标记的选择通常是分类任务的特征选择 问题。然而,这些早期方案面临若干缺点。由这些技术生成的签名(signature)常常是不 能再现的,因为对象的包含与排除可能导致不同的签名。这些早期方案还生成很多假阳性 签名并且不鲁棒,因为它们是在具有小样本尺寸和高维度的数据集上操作的。
[0008] 因此,需要用于识别用于临床诊断和/或预后的生物标记的改进的技术,并且更 具体地,需要用于识别能够用来将数据集中的元素分类到两个或更多个分类中的数据标记 的改进的技术。


【发明内容】

[0009] 申请人:已认识到现有的基于计算机的方法不利地与分类预测技术分开应用偏差 校正技术。本文描述的计算机系统和计算机程序产品实现将集成方法应用到偏差校正和分 类预测的方法,其可在生物标记和其他数据分类应用中实现改进的分类性能。具体地,本文 公开的计算机实现的方法采用迭代方法进行偏差校正和分类预测。在计算机实现的方法的 各种实施例中,系统中的至少一个处理器接收训练数据集和训练分类集,训练分类集标识 与训练数据集中的每个元素相关的分类。系统中的处理器还接收测试数据集。处理器通过 将机器学习技术应用到训练数据集和训练分类集来生成用于训练数据集的第一分类器,并 通过根据第一分类器对测试数据集中的元素进行分类来生成第一测试分类集。对于多次迭 代中的每一次,处理器:基于训练分类集和测试分类集中的至少一个来变换训练数据集,通 过应用前一步的变换来变换测试数据集,通过将机器学习技术应用到经变换的训练数据集 和训练分类集来生成用于经变换的训练数据集的第二分类器,并且通过根据第二分类器对 经变换的测试数据集中的元素进行分类来生成第二测试分类集。处理器还将第一测试分类 集与第二测试分类集相比较,并且当第一测试分类集与第二测试分类集不同时,处理器将 第二分类集存储为第一分类集,将经变换的测试数据集存储为测试数据集并返回到迭代开 头。本发明的计算机系统包括用于实现如上所述的方法及其各种实施例的装置。
[0010] 在如上所述方法的某些实施例中,该方法还包括当第一测试分类集与第二测试分 类集并非不同时输出第二分类集。具体地,如上所述的迭代可重复至第一测试分类集和第 二测试分类集收敛并且预测的分类之间没有差别。在如上所述方法的某些实施例中,训练 数据集的元素表示患病病人、对疾病有抵抗力的病人或未患病病人的基因表达数据。训练 分类集的元素可对应于训练数据集中的数据样本的已知分类标识。例如,分类标识可包括 诸如"疾病阳性"、"疾病免疫"或"无疾病"之类的类别。
[0011] 在如上所述方法的某些实施例中,训练数据集和测试数据集是通过将总数据集中 的样本随机指派到训练数据集或测试数据集而生成的。将总数据集随机地分裂成训练数据 集和测试数据集可能是预测分类和生成鲁棒基因签名所需要的。另外,总数据集的样本可 在分裂之前被丢弃,或者训练数据集或测试数据集的样本可在分裂之后被丢弃。在如上所 述方法的某些实施例中,变换训练数据集的步骤、变换测试数据集的步骤、或者变换训练数 据集和变换测试数据集的步骤二者包括通过基于数据集的质心调整数据集的元素来执行 偏差校正技术。变换是根据变换函数来执行的,变换函数可基于训练数据集来定义变换。 在如上所述方法的某些实施例中,偏差校正技术包括从数据集的每个元素中减去质心的分 量。例如,偏差校正技术的结果可以是训练数据集、测试数据集或者训练和测试数据集二者 的每个元素通过将数据集中表示的每个分类的质心考虑在内而"回到中心"(recenter)。在 如上所述方法的某些实施例中,变换训练数据集的步骤、变换测试数据集的步骤、或者变换 训练数据集和变换测试数据集的步骤二者包括应用旋转、剪切、移动、线性变换或非线性变 换。
[0012] 在如上所述方法的某些实施例中,该方法还包括对于多次迭代中的每一次,将第 一测试分类集与第二测试分类集相比较。作为比较结果,如果第一测试分类集中的任一单 个元素与第二测试分类集中的相应元素不同,则第一测试分类集和第二测试分类集可被认 为不同。一般地,阈值可被设置以使得如果第一测试分类集中的预定数目的元素与第二测 试分类集中的相应元素不同,则第一测试分类集和第二测试分类集被认为不同。
[0013] 在如上所述方法的某些实施例中,该方法还包括对于多次迭代中的每一次,通过 将机器学习技术应用到经变换的训练数据集和训练分类集来生成用于经变换的训练数据 集的第二分类器。在如上所述方法的某些实施例中,测试数据集的变换涉及与变换训练数 据集的变换相同的变换。在如上所述方法的某些实施例中,该方法还包括将第二测试分类 集提供到显示设备、打印设备或存储设备。在如上所述方法的某些实施例中,该方法还包 括基于误差率计算第二分类器的性能度量。在某些实施例中,诸如但不限于线性判别分析 (LDA)、逻辑回归、支撑向量机、朴素贝叶斯分类器之类的线性分类器是优选的。
[0014] 本发明的计算机系统包括用于实现如上所述方法的各种实施例的装置。例如,计 算机程序产品被描述,该产品包括计算机可读指令,当在包括至少一个处理器的计算机化 系统中运行时,所述计算机可读指令使得该处理器实现如上所述方法中的任一方法的一个 或多个步骤。在另一示例中,计算机化系统被描述,该系统包括配备了非暂时性计算机可读 指令的处理器,所述非暂时性计算机可读指令当被运行时使得该处理器实现如上所述方法 中的任一方法。本文描述的计算机程序产品和计算机化方法可在具有一个或多个计算设备 的计算机化系统中实现,每个计算设备包括一个或多个处理器。一般地,本文描述的计算机 化系统可包括一个或多个引擎,所述引擎包括处理器或设备,如配备了硬件、固件和软件以 实现本文描述的一个或多个计算机化方法的计算机、微处理器、逻辑设备或其他设备或处 理器。这些引擎中的任一个或多个可与任一个或多个其他引擎物理上可分离,或者可包括 多个物理上可分离的部件,如公共或不同电路板上的分离的处理器。本发明的计算机系统 包括用于实现如上所述的方法及其各种实施例的装置。引擎可不时被互连,并且不时被进 一步连接到一个或多个数据库,包括扰动数据库、可测量量数据库、实验数据数据库和文献 数据库。本文描述的计算机化系统可包括具有通过网络接口通信的一个或多个处理器和引 擎的分布式计算机化系统。该实现方式可以适合于多个通信系统上的分布式计算。

【专利附图】

【附图说明】
[0015] 考虑以下结合附图的详细说明后,将明了本公开的其他特征、性质和各种优点,附 图中相同的标号指代各处相同的部分,其中:
[0016] 图1描绘了用于识别一个或多个生物标记签名的示例性系统;
[0017] 图2例示了数据集中元素的分类;
[0018] 图3是用于对数据集进行分类的示例性处理的流程图;
[0019] 图4是诸如图1的系统的部件中的任一部件之类的计算设备的框图;
[0020] 图5是训练数据集中的基因签名的热图。

【具体实施方式】
[0021] 为了提供本文描述的系统和方法的整体理解,现在将描述某些例示性实施例,包 括用于识别基因生物标记签名的系统和方法。然而,本领域普通技术人员将理解,本文描述 的系统、计算机程序产品和方法可针对例如任何数据分类应用之类的其他合适应用被改编 和修改,并且这类其他补充和修改将不脱离其范围。一般地,本文描述的计算机化系统可包 括一个或多个引擎、处理器或设备,如配备了硬件、固件和软件以实现本文描述的一个或多 个计算机化方法的计算机、微处理器或逻辑设备。
[0022] 图1描绘了用于识别一个或多个生物标记签名的示例性系统100,其中可 实现本文公开的分类技术。该系统100包括生物标记发生器102和生物标记巩固器 (consolidator) 104。系统100还包括用于控制生物标记发生器102和生物标记巩固器104 的操作的某些方面的中央控制单元(CXU) 101。操作期间,诸如基因表达数据之类的数据在 生物标记发生器102处被接收。生物标记发生器102处理该数据以生成多个候选生物标记 和相应的误差率。生物标记巩固器104接收这些候选生物标记和误差率并选择具有最优性 能量度和尺寸的合适生物标记。
[0023] 生物标记发生器102包括用于处理数据并生成一组候选生物标记和候选误差率 的若干部件。具体地,生物标记发生器包括用于将数据分到训练数据集和测试数据集中的 数据预处理引擎110。生物标记发生器102包括用于接收训练数据集和测试数据集并将测 试数据集的元素分类到两个或更多个分类之一中的分类引擎114 (例如,患病的和未患病 的,易感的、免疫的和患病的,等等)。生物标记发生器102包括用于确定应用到数据预处理 引擎110选择的测试数据的分类器的性能的分类器性能监视引擎116。分类器性能监视引 擎116基于分类器来识别候选生物标记(例如,对分类最重要的数据集的元素的分量)并 为一个或多个候选生物标记生成可包括候选误差率的性能量度。生物标记发生器102还包 括用于存储一个或多个候选生物标记和候选性能量度的生物标记存储器118。
[0024] 生物标记发生器可由CXU101控制,CXU101进而可被自动控制或由用户操作。在 某些实施例中,生物标记发生器102可操作来在每次将数据随机分到训练和测试数据集中 时生成多个候选生物标记。为了生成该多个候选生物标记,生物标记发生器102的操作可 被迭代多次。CCU101可接收包括候选生物标记的期望数目的一个或多个系统迭代参数,所 述候选生物标记的期望数目进而可用于确定生物标记发生器102的操作可被迭代的次数。 CXU101还可接收包括期望的生物标记尺寸的其他系统参数,所述期望的生物标记尺寸可 表示生物标记中分量的数目(例如,生物标记基因签名中基因的数目)。生物标记尺寸信息 可被分类性能监视引擎116用于从训练数据生成候选生物标记。生物标记发生器102和分 类引擎114的操作具体地被参考图2-4更详细地描述。
[0025] 生物标记发生器102生成被生物标记巩固器104用于生成健壮的生物标记的一个 或多个候选生物标记和候选误差率。生物标记巩固器104包括生物标记共识(consensus) 引擎128,生物标记共识引擎128接收多个候选生物标记并生成在多个候选生物标记中具 有最频繁出现的基因的新生物标记签名。生物标记巩固器104包括用于确定多个候选生物 标记上的总体误差率的误差计算引擎130。类似于生物标记发生器102,生物标记巩固器 104也可由CXU101控制,CXU101进而可被自动控制或由用户操作。CXU101可接收和/ 或确定用于最小生物标记尺寸的合适阈值,并使用该信息来确定操作生物标记发生器102 和生物标记巩固器104二者的迭代次数。在一个实施例中,每次迭代期间,CXU101将生物 标记尺寸减小一并迭代生物标记发生器102和生物标记巩固器104二者,直至达到阈值。在 该实施例中,对于每个迭代,生物标记共识引擎128输出新的生物标记签名和新的总体误 差率。生物标记共识引擎128因而输出各自具有从阈值变化至高达最大生物标记尺寸的不 同尺寸的新的生物标记签名的集合。生物标记巩固器104还包括生物标记选择引擎126,生 物标记选择引擎126查阅这些新的生物标记签名的每一个的性能量度或误差率,并选择最 优的生物标记来输出。生物标记巩固器104及其各个引擎的操作被参考图2-4更详细地描 述。
[0026] 图3是用于对数据集进行分类的示例性处理的流程图。在步骤302,分类引擎114 接收训练数据和测试数据。如下所述,分类引擎114使用训练数据来开发一个或多个分类 器,然后将这一个或多个分类器应用于测试数据。如图3所例示,训练数据包括训练数据集 TO.train304和训练分类集cl.train306。训练数据集TO.train304中的每个元素代表 数据样本(例如,来自特定病人的表达数据的向量)并对应于训练分类集cl.train306中 的已知分类标识。例如,在三分类的情形中,训练数据集TO.train304中的第一元素可代 表患有特定疾病的病人的基因表达数据,并可对应于训练分类集cl.train306中的第一 元素"疾病阳性";训练数据集TO.train304中的第二元素可代表对该特定疾病有抵抗力或 免疫的病人的基因表达数据,并可对应于训练分类集cl.train306中的第二元素"疾病免 疫";训练数据集TO.train304中的第三元素可代表没有该特定疾病的病人的基因表达数 据,并可对应于训练分类集cl.train306中的第三元素"无疾病"。步骤302处接收的测试 数据包括测试数据集TO.test308,测试数据集TO.test308代表与训练数据集TO.train 304中的数据样本相同潜在类型的数据,但可代表例如从不同病人或不同实验取得的样本。 可选地,分类引擎114还接收包括用于测试数据集中的数据样本的已知分类标识的测试分 类集cl.test310,所述已知分类标识可用于在分类引擎114生成的分类器被应用于测试 数据集TO.test308时评价该分类器的性能。在某些实现方式中,测试数据集TO.test308 中没有数据样本的已知分类可用,因此测试分类集cl.test310不被提供到分类引擎114。
[0027] -般地,步骤302处接收的数据可代表从中可提取分类的任何实验的或以其他方 式获得的数据,例如样本中的多个不同基因的表达值,和/或诸如任何生物上重要的分析 物的级别之类的各种表型特征。在某些实施例中,数据集可包括用于疾病条件和用于控制 条件的表达水平数据。如本文所使用的,术语"基因表达水平"可指代例如RNA或多肽之类 的基因所编码的分子的量。mRNA分子的表达水平可包括mRNA的量(由编码mRNA的基因的 转录活动决定)和mRNA的稳定性(由mRNA的半衰期决定)。基因表达水平还可包括与基 因所编码的给定氨基酸序列相对应的多肽的量。相应地,基因的表达水平可以对应于从基 因转录的mRNA的量、基因所编码的多肽的量或者它们二者。基因的表达水平还可按不同形 式的基因产品的表达水平来归类。例如,基因所编码的RNA分子可包括不同地表达的剪接 变异体、具有不同起始位置或终止位置的转录和/或其他不同地处理的形式。基因所编码 的多肽可涵盖裂开和/或修改形式的多肽。多肽可因磷酸化、脂化、异戊烯化、硫酸盐化、羟 基化、乙酰化、核糖基化、法尼基化、增加糖类等而被修改。另外,具有给定类型的修改的多 种形式的多肽可以存在。例如,多肽可以在多个位置处被磷酸化并且表达被不同地磷酸化 的蛋白质的不同水平。
[0028] 在某些实施例中,细胞或组织中的基因表达水平可用基因表达谱来表示。基因表 达谱可指代诸如细胞或组织之类的试样中的基因的表达水平的特征表示。来自个体的试样 中的基因表达谱的确定代表该个体的基因表达状态。基因表达谱反映由细胞或组织中的一 个或多个基因编码的信使RNA或多肽的表达或其形式。表达谱一般可指代示出不同细胞或 组织中的不同表达模式的生物分子(核酸、蛋白质、碳水化合物)的谱。代表基因表达谱的 数据样本可被存储为表达水平的向量,向量中的每个条目对应于特定生物分子或其他生物 实体。
[0029] 在某些实施例中,数据集可包括代表样本中的多个不同基因的基因表达值的元 素。在其他实施例中,数据集可包括代表质谱分析法检测到的峰的元素。一般地,每个数据 集可包括各自对应于多个生物状态分类之一的数据样本。例如,生物状态分类可包括但不 限于:样本的源(即,从其获得样本的病人)中是否存在疾病;疾病的阶段;疾病的风险;疾 病复发的可能性;一个或多个基因座处的共享基因型(例如,常见HLA单体型;基因突变; 基因修改,如甲基化等);接触药剂(例如,有毒物或潜在有毒物,环境污染物,候选药物等) 或条件(温度,PH等);人口学特征(年龄,性别,体重;家族史;已有状况史等);对药剂的 耐受性,对药剂的敏感性(例如,对药物的反应性)等等。
[0030] 数据集可彼此独立以减少最终分类器选择中的收集偏差。例如,它们可能从多个 源被收集并且可能使用不同的排除或包含标准在不同时间从不同地点被收集,即,当考虑 定义生物状态分类的特征以外的特征时,数据集可能相对异质(heterogeneous)。造成异 质的因素包括但不限于:由性别、年龄、种族造成的生物学差异;由饮食、运动、睡眠行为造 成的个体差异;以及由用于血液处理的临床方案造成的样本处理差异。然而,生物状态分类 可包括一个或多个常见特征(例如,样本源可代表具有疾病和相同性别或一个或多个其他 常见人口学特征的个体)。在某些实施例中,来自多个源的数据集是通过来自不同时刻和/ 或不同条件下的同一病人群体的样本的收集而生成的。
[0031] 在某些实施例中,多个数据集是从多个不同的临床试验位置获得的并且每个数据 集包括在每个单独的试验位置获得的多个病人样本。样本类型包括但不限于:血液,血清, 血浆,乳头抽取液,尿液,泪液,唾液,脊髓液,淋巴液,细胞和/或组织溶解物,激光显微切 割组织或细胞样本,(例如石蜡块中的或冷冻的)包埋细胞或组织;(例如来自尸检的)新 鲜或档案样本。样本例如可以从试管内的细胞或组织培养物获得。作为替代,样本可以从 活的有机体或从诸如单细胞有机体之类的有机体群体获得。在一个示例中,当识别用于特 定癌症的生物标记时,血液样本可从位于两个不同的测试位置的独立群所选择的对象被收 集,从而提供将从中开发独立的数据集的样本。
[0032] 在某些实现方式中,训练和测试集由数据预处理引擎110(图1)生成,数据预处理 引擎110接收批量数据并将批量数据分到训练数据集和测试数据集中。在某些实施例中, 数据预处理引擎110随机地将数据分到这两个群中。随机地分数据可能是预测分类和生成 健壮的基因签名所需要的。在其他实施例中,数据预处理引擎110基于数据的类型或标签 来将数据分到两个或更多个群中。一般地,数据可以按所需的任何合适方式被分到训练数 据集和测试数据集中,而不脱离本公开的范围。训练数据集和测试数据集可具有任何合适 的尺寸并且可具有相同或不同的尺寸。在某些实施例中,数据预处理引擎110可在将数据 分到训练和测试数据集之前丢弃一条或多条数据。在某些实施例中,数据预处理引擎Iio 可在任何进一步处理之前从训练数据集和/或测试数据集丢弃一条或多条数据。
[0033] 在步骤311,分类引擎114将计数器变量i设为等于1。在步骤312,分类引 擎114基于训练数据集TO.train304和训练分类集cl.train306生成第一分类器rf314。图2例示了数据集中的元素的分类。分类引擎114可在步骤312使用任一种或 多种已知的机器学习算法,包括但不限于:支撑向量机技术,线性判别分析技术,随机森 林技术,k最邻近邻居技术,偏最小二乘技术(包括将最小二乘与线性判别分析特征相 结合的技术),逻辑回归技术,基于神经网络的技术,基于决策树的技术以及缩小质心技 术(例如,Tibshirani,Hastle,Narasimhan和Chu在〃Diagnosisofmultiplecancer typesbyshrunkencentroidsofgeneexpression, 〃PNAS,v. 99,η· 10, 2002 中所描述 的)。许多这类技术可作为R编程语言包来获得,包括与线性判别分析、支撑向量机、随机 森林(Breiman,MachineLearning, 45 (1) : 5-32 (2001))、k最邻近邻居(Bishop,Neural NetworksforPatternRecognition,ed.O.U.Press, 1995)、偏最小二乘判别分析和 PAMR(Tibshirani等人,ProcNatlAcadSciUSA, 99(10) :6567-6572(2002))相对应的 Ida,svm,randomForest,knn,pis.Ida和pamr。分类引擎 114 可在步骤 312 中将第一分类 器rf314存储在存储器中。
[0034] 在步骤316中,分类引擎114通过将(步骤312处生成的)第一分类器rf314应 用于测试数据集TO.test308来生成一组预测的测试分类predcl.test318。分类引擎114 可在步骤316中将预测的分类predcl.test318存储在存储器中。
[0035] 在步骤320中,分类引擎114变换训练数据集TO.train304。该变换根据变换 函数correctedData进行,该变换函数基于训练分类集cl.train306来变换训练数据集 TO.train304。步骤310的变换结果为分类引擎114可存储到存储器中的经变换的训练数 据集TO.train. 2322。在某些实现方式中,分类引擎114在步骤320处执行的变换包括偏差 校正技术。例如,变换可通过相对于作为一个整体来看的数据集的质心或数据集中表示的 每个分类的质心调整训练数据集TO.train304的元素来使训练数据集TO.train304"回到 中心"。
[0036] -个具体的回到中心技术涉及基于不同群的质心的中心来将训练数据集 TO.train304的元素置于中心。如果训练数据集TO.train304中存在η个数据样本,并且 每个数据样本是具有P个条目的向量(例如,表示P个不同基因的表达水平),则令xij表 示数据样本j的第i个条目。如果训练分类集cl.train308表示K个不同的分类,则令Ck 表示分类k中的nk个样本的索引。分类引擎114可将分类k的质心的第i个分量计算为

【权利要求】
1. 一种由处理器运行的将数据集分类到两个或更多个分类的计算机实现的方法,包 括: (a) 接收训练数据集和训练分类集,所述训练分类集标识与所述训练数据集中的每个 元素相关联的分类; (b) 接收测试数据集; (c) 通过将机器学习技术应用到所述训练数据集和所述训练分类集来生成用于所述训 练数据集的第一分类器; (d) 通过根据所述第一分类器对所述测试数据集中的元素进行分类来生成第一测试分 类集; (e) 对于多次迭代中的每一次: (i) 基于所述训练分类集和所述测试分类集中的至少一个来变换所述训练数据集; (ii) 变换所述测试数据集; (iii) 通过根据基于经变换的训练数据集和所述训练分类集的第二分类器对经变换的 测试数据集中的元素进行分类来生成第二测试分类集; (iv) 当所述第一测试分类集与所述第二测试分类集不同时,将所述第二分类集存储为 所述第一分类集并将所述经变换的测试数据集存储为所述测试数据集并且返回步骤(i)。
2. 根据权利要求1所述的方法,还包括当所述第一测试分类集与所述第二测试分类集 并非不同时,输出所述第二分类集。
3. 根据权利要求1-2中任一个所述的方法,其中所述训练数据集的元素表示患病病 人、对疾病有抵抗力的病人或未患病病人的基因表达数据。
4. 根据权利要求1-3中任一个所述的方法,其中所述训练数据集和所述测试数据集是 通过将总数据集中的样本随机指派到所述训练数据集或所述测试数据集而生成的。
5. 根据权利要求1-4中任一个所述的方法,其中步骤(i)、步骤(ii)、或步骤(i)和 步骤(ii)二者处的变换包括通过基于数据集的质心调整数据集的元素来执行偏差校正技 术。
6. 根据权利要求5所述的方法,其中所述偏差校正技术包括从数据集的每个元素中减 去所述质心的分量。
7. 根据权利要求1-6中任一个所述的方法,其中步骤(i)、步骤(ii)、或步骤(i)和步 骤(ii)二者处的变换包括应用旋转、剪切、线性变换或非线性变换。
8. 根据权利要求1-7中任一个所述的方法,还包括对于所述多次迭代中的每一次,将 所述第一测试分类集与所述第二测试分类集进行比较。
9. 根据权利要求1-8中任一个所述的方法,还包括对于所述多次迭代中的每一次,通 过将机器学习技术应用到所述经变换的训练数据集和所述训练分类集来生成用于所述经 变换的训练数据集的所述第二分类器。
10. 根据权利要求1-9中任一个所述的方法,其中步骤(ii)处的变换是通过应用与步 骤(i)的变换相同的变换来执行的。
11. 根据权利要求1-10中任一个所述的方法,还包括将所述第二测试分类集提供到显 示设备、打印设备或存储设备。
12. 根据权利要求1-11中任一个所述的方法,其中如果所述第一测试分类集中的任一 元素与所述第二测试分类集中的相应元素不同,则所述第一测试分类集和所述第二测试分 类集不同。
13. 根据权利要求1-12中任一个所述的方法,还包括基于误差率来计算所述第二分类 器的性能度量。
14. 一种包含计算机可读指令的计算机程序产品,当在包括至少一个处理器的计算机 化系统中被运行时,所述计算机可读指令使得所述至少一个处理器执行根据权利要求1-13 中任一个所述的方法中的一个或多个步骤。
15. -种包含配备有非暂时性计算机可读指令的至少一个处理器的计算机化系统,所 述非暂时性计算机可读指令当被运行时使得处理器执行根据权利要求1-13中任一个所述 的方法。
【文档编号】G06F19/24GK104508671SQ201380039806
【公开日】2015年4月8日 申请日期:2013年6月21日 优先权日:2012年6月21日
【发明者】弗洛里安·马丁, 向阳 申请人:菲利普莫里斯生产公司, 弗洛里安·马丁, 向阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1