蛋白质查找方法和设备的制作方法

文档序号:6455893阅读:273来源:国知局
专利名称:蛋白质查找方法和设备的制作方法
技术领域
本发明涉及用于查找与诸如临床信息的信息直接或间接相关的蛋 白质的方法和设备。
背景技术
近年来,称为蛋白质组分析的蛋白质综合分析技术的进步已经引 起了对可用于疾病诊断和蛋白质的功能性分析的标志蛋白质的积极研 究,所述蛋白质组分析使用质谱法、二维电泳法等。蛋白质组分析通 常指下述分析,即从源于例如活组织检査的样本中,将存在于该样本 中的各种蛋白质等分离为成分,并然后鉴定每个分离的成分。
蛋白质组分析的方法的一个实际示例涉及首先制备样本,实施 二维电泳以分离蛋白质,选择已经通过染色二维电泳中获得的凝胶而 变得可见的点(spot),并对通过进一步的酶处理等获得的提取物进行 质谱(MS)分析以预测哪些蛋白质包括在样本中。已变得可见的点每 个对应于分离的蛋白质。除了结合二维电泳和质谱的上述方法以外, 蛋白质组分析的方法还包括下述处理在实施适当的样本预处理后仅 实施二维电泳法和质谱法中的一种。还有采用其它蛋白质鉴定方法的 方法。
一种常用于蛋白质组分析的二维电泳的方法是2D-DIGE (二维荧 光差异凝胶电泳)。2D-DIGE是用于使蛋白质的表达和修饰信息图谱化 的技术并且适用于样本中蛋白质的定量比较。此外,蛋白质组分析中 常采用的一种质谱法使用SELDI (表面增强激光解吸/离子化)芯片。 使用SELDI芯片的质谱法是适用于蛋白质的图谱化的技术,并且通过使 用该方法,基于质谱实施样本之间的蛋白质的定量比较。然而,公知的是在包括人类的某些动物中,在从感染疾病的个体 获得的样本中以及从正常的个体获得的样本中,特定蛋白质的表达中 常常出现显著差异。
从个体获得的蛋白质的精确测量对于疾病的诊断是有效的。此外, 为了进行这种诊断,关键的是针对每种疾病确定在已感染疾病的个体 和正常个体之间的表达中存在显著差异的蛋白质。在正常个体和染病 个体之间表达中发生显著差异的蛋白质称为"标志蛋白质"。査找标 志蛋白质涉及对蛋白质的表达与诸如疾病状态或治疗记录的临床信息 之间的关系进行研究以及查找表达与临床信息显著相关的蛋白质的统 计处理的实施。
根据John M. Luk等人[Bl]的方法是下述方法的一个示例用于在
来自染病个体的样本和来自正常个体的样本间进行蛋白质的定量比 较。在Luk等人的方法中,在使用t-检验或ANOVA (方差分析)中使用
的检验统计量作为指标的同时,对通过二维电泳法获得的蛋白质表达 进行比较。Luk等人使用该方法仅关注具有三个最高的检验统计量的蛋 白质以评估区分肝癌中癌变区域和非癌变区域的能力并评估与现有的 标志蛋白质或临床信息的关联性。
作为本发明的相关技术,JP-A-2003-038377[Al]公开了设计用于使 用RNA (核糖核酸)干扰现象的基因表现控制的功能性核酸序列的方 法。在该方法中,从目标基因序列中提取寡核苷酸,所述目标基因序 列为mRNA (信使RNA),该序列被取为设计候选序列的输入数据,基 于已知的训练序列和设计候选序列通过核方法进行特征性提取,并且 进行监督学习从而预测用于目标基因的有效的功能性核酸序列。该训 练序列是已视作在基因表现控制中有效的寡核苷酸序列。 JP-A-2003-038377公开的方法实质上是通过比较已知的功能核酸序列 而从设计候选序列预测功能性核酸序列,因此,即使用氨基酸序列代替核酸序列时,该方法也不能用于基于诸如临床信息的信息査找标志 蛋白质的目的。
作为与本发明相关的技术,WO2002/047007[A2]公开了学习分类 和预测遗传疾病的机器(machine)的使用。
0. Troyanskaya等人[B2]公开了基于最近邻算法的缺失值补充方 法。JP-A-2004-126857[A3〗类似地公开了使用k-最近邻算法估算基因表
达数据中的缺失值。
是机器学习中的一种方法的随机梯度增强(boosting)是梯度增强 的发展。在[B3]中描述了随机梯度增强,且在[B4]中描述了梯度增强。
随机梯度增强和梯度增强均是集成学习的类型,集成学习的代表模式 是[B5]中描述的增强和[B6]中描述的装袋(bagging)。决策树和回归树 常用作集成学习的下位学习机,并且在[B7]中描述这些。
以下列出了本说明书中引用的参考文献 [Al] JP-A2003-038377 [A2] WO2002/047007(JP-A陽2004-524604) [A3] JP-A-2004-126857 John M. Luk等人;"Proteomic profiling of hepatocellular carcinoma in Chinese cohort reveals heat-shock proteins (Hsp27, Hsp70, GRP78) up-regulation and their associated prognostic values," Proteomics, 2006, 6, 1049-1057. O. Troyanskaya, M. Cantor, G. Sherlock, P. Brown, T. Hastie, R. Tibshirani, D. Botstein,禾口R. B. AItman; "Missing value estimation methods for DNA microarrays," Bioinformatics, 2001, 17, 520-525.: J. Friedman; "Stochastic gradient boosting," Computational Statistics and Data Analysis, 2002, 367-378.: J. Friedman; "Greedy Function Approximation: A Gradient说 ," The Annals of Statistics, 2001, 1189-1232.: Y. Freund, R. E. Schapire; "A decision-theoretic generalization of on-line learning and an application to boosting," Journal of Computer and System Sciences, 1997, 23-27.: Leo Breiman; "Bagging Predictors," Machine Learning, 1996, 123-140.: Andreas Buja禾口Yung-Seop Lee; "Data mining criteria for tree-based regression and classification," Proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining, pp. 27-36, 2001.

发明内容
本发明所要解决的问题
诸如Luk等人[Bl]的方法在来自正常个体的样本和来自染病个体
的样本间进行蛋白质的定量比较的方法具有应从查找标志蛋白质的角 度来解决的问题,如下所述。
首先,独立地检查组之间每种蛋白质的表达与临床信息之间的关 联以确定与例如临床信息的关联的存在,从而在测试统计量中见到对 阈值的依赖性,但是设置该阈值的基础的合理性极弱。此外,由于针 对每种个体蛋白质进行独立的统计测试,因此当多种蛋白质的表达均
与临床信息关联时,该方法不是有效的。已知的是,通常,多种生物 分子复杂地牵涉到疾病状态的机理或药效,并且因此上述方法不能认 为是用于查找标志蛋白质的方法。
当使用二维电泳法时,在获得对应于相同蛋白质的点的样本之间
的关联时遇到困难,这是因为实验中再现性降低的不可避免,噪声 的渗入,以及进一步地,当电泳图像作为图片图像输入时处理过程中 图像处理技术的限制。因此,能够在组之间进行比较的蛋白质的穷竭 性(exhaustivity)有可能显著降低。此外,不清楚哪些蛋白质实际对应
9于下述点或峰,其中在蛋白质已经通过二维电泳法扩散的阶段观察到 所述点,在借助于质谱法测量质谱的阶段观察到所述峰。结果,必须 鉴定对应于点或峰的氨基酸序列以弄清楚蛋白质的身份,但是该操作 需要大量的时间和工作。
此外,借助于蛋白质组分析,从一个样本中获得多种蛋白质的每 一种表达的数据作为蛋白质表达谱图数据,但是可能发生数据缺失。 数据缺失是不能获得与若干蛋白质相关的表达的数据,即使这些蛋白 质应该实际上包含在样本中。可能出现这类缺失是因为以下原因,测 量中分辨率不足,图像处理的限制,或者外来物质或噪声附在电泳图 像上。查找标志蛋白质的穷竭性的改进需要考虑这类数据缺失,并且 在某些情形中,需要补充缺失值。
鉴于上述问题,本发明的目的是提供新的分析方法,该分析方法 使得能够基于诸如二维电泳中获得的蛋白质的数据表达数据的信息查 找生物学中重要的蛋白质诸如标志蛋白质作为目标蛋白质。
鉴于上述问题,本发明的另一个目的是提供新的分析设备,该分 析设备使得能够基于诸如二维电泳中获得的蛋白质的表达数据的信息 査找生物学中重要的蛋白质诸如标志蛋白质作为目标蛋白质。
解决问题的方法
根据本发明的蛋白质査找方法是下述蛋白质查找方法,用于基于 通过蛋白质组分析获取的蛋白质表达谱图数据査找与信息直接或间接 有关的蛋白质作为目标蛋白质,该蛋白质查找方法包括基于通过使 用从谱图数据中的蛋白质表达和信息的监督学习获得的蛋白质的显著 性确定与信息相关的蛋白质作为目标蛋白质;并且借助于评估数据评 估目标蛋白质的性能。
根据本发明的第一蛋白质查找设备是用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质 的蛋白质査找设备,所述第一蛋白质查找设备包括数据存储装置, 用于存储通过蛋白质组分析获取的蛋白质表达数据和信息;目标蛋白 质查找装置,用于使用从蛋白质表达数据和信息的监督学习确定目标 蛋白质;目标蛋白质存储装置,用于存储所确定的目标蛋白质的表达; 根据目标蛋白质的预测模型学习装置,用于使用所确定的目标蛋白质 的表达和信息以学习预测模型;预测模型存储装置,用于存储预测模 型;评估数据存储装置,用于存储用于评估预测模型的性能的数据; 以及预测模型验证装置,用于借助于评估数据评估预测模型。
根据本发明的第二蛋白质查找设备是用于基于通过蛋白质组分析 获取的蛋白质表达谱图数据査找与信息相关的蛋白质作为目标蛋白质 的蛋白质査找设备,所述第二蛋白质查找设备包括数据存储装置, 用于存储通过蛋白质组分析获取的蛋白质表达数据和信息;数据划分 装置,用于将蛋白质表达数据划分为目标蛋白质查找中使用的训练数 据和验证数据;训练数据存储装置,用于存储训练数据;验证数据存 储装置,用于存储验证数据;目标蛋白质査找装置,用于使用从训练 数据和信息的监督学习确定目标蛋白质;目标蛋白质存储装置,用于 存储所确定的目标蛋白质的表达;根据目标蛋白质的预测模型学习装 置,用于使用所确定的目标蛋白质的表达和信息学习预测模型;预测 模型存储装置,用于存储预测模型;以及预测模型验证装置,用于借 助于验证数据评估预测模型。
根据本发明,作为一个示例,即使当多种蛋白质的表达与诸如临 床信息的信息有关时,也能査找诸如标志蛋白质的目标蛋白质,并且 进一步地,能够合理地确定用于确定蛋白质是否为目标蛋白质的阈值。


图l是示出根据第一示例性实施例的标志蛋白质查找设备的构造 的框2是示出图1中所示的标志蛋白质查找设备中处理过程的示例的 流程图3是示出用于补充缺失值的处理过程的示例的流程图; 图4是示出随机梯度增强的处理过程的示例的流程图5是示出根据第二示例性实施例的标志蛋白质査找设备的构造 的框图6是示出图5中所示的标志蛋白质查找设备中处理过程的示例的 流程图7是示出根据第三示例性实施例的标志蛋白质査找设备的构造 的框图;以及
图8是示出图7中所示的标志蛋白质查找设备中处理过程的示例的 流程附图标记的说明
1输入设备;
2数据处理设备;
3存储设备;
4输出设备;
21缺失值补充单元;
22数据划分单元;
23标志蛋白质査找单元;
24预测模型学习单元;
25验证单元;
31数据存储单元;
32训练数据存储单元;
33验证数据存储单元;
34参数存储单元;
35标志蛋白质存储单元;
36预测模型存储单元;以及
37评估数据存储单元。
具体实施例方式
接下来说明本发明的示例性实施例。在以下描述中,给出了下述 示例,其中对于与临床信息直接或间接相关的标志蛋白质进行全面查
找,作为与信息直接或间接相关的蛋白质的目标蛋白质。在本发明中, 通过使用对通过蛋白质组分析获得的蛋白质的表达进行集成学习来进 行标志蛋白质的全面査找。
图l示出根据第一示例性实施例的标志蛋白质查找设备的构造。该 标志蛋白质査找设备基于通过例如二维电泳法获得的蛋白质的表达数 据进行生物学中重要的蛋白质,即标志蛋白质的査找。
图中所示的标志蛋白质査找设备通常由以下构成输入设备l,诸 如键盘或定位设备;数据处理设备2,其在程序的控制下运行;存储设 备3,用于存储信息;以及输出设备4,诸如显示设备或打印机。
数据处理设备2设置有缺失值补充单元21,用于补充已缺失的蛋 白质表达的值;数据划分单元22,用于在训练数据和验证数据之间划 分所有数据;标志蛋白质查找单元23,用于从训练数据查找标志蛋白 质;预测模型学习单元24,用于使用标志蛋白质的表达以及例如,临 床信息学习预测模型;以及验证单元25,用于基于验证数据评估预测 模型的分类性能。这里,缺失值补充单元21又称为缺失值补充装置, 数据划分单元22又称为数据划分装置,标志蛋白质查找单元23又称为 目标蛋白质査找装置,预测模型学习单元24又称为预测模型学习装置, 且验证单元25又称为预测模型验证装置。
存储设备3设置有数据存储单元31,用于存储蛋白质表达和例如 临床信息;训练数据存储单元32,用于存储已经通过数据划分单元22 划分的训练数据;验证数据存储单元33,用于存储已经通过数据划分 单元22划分的验证数据;参数存储单元34,用于存储标志蛋白质查找单元23査找标志蛋白质中使用的学习参数;标志蛋白质存储单元35,
用于存储已经査找到的标志蛋白质信息和临床信息;以及预测模型存
储单元36,用于存储通过使用训练数据中的标志蛋白质和临床信息而 学习到的预测模型。这里,数据存储单元31还称为数据存储装置,训 练数据存储单元32还称为训练数据存储装置,验证数据存储单元33还 称为验证数据存储装置,标志蛋白质存储单元35还称为目标蛋白质存 储装置,并且预测模型存储单元36还称为预测模型存储单元。
接下来的说明涉及使用图l所示的标志蛋白质查找设备查找标志 蛋白质。图2是示出标志蛋白质查找的处理过程的示例的流程图。
在步骤A1中,借助于输入设备1将执行指令施加到标志蛋白质查找 设备,并且借助于输入设备1输入蛋白质的表达作为数据存储单元31的 输入。作为输入的接收到的表达被存储在数据存储单元31中。这里, 蛋白质的表达由例如通过蛋白质组分析获取的蛋白质表达谱图数据获 得。作为蛋白质组分析方法,能够使用釆用二维电泳和/或质谱的方法。 此外,诸如蛋白质的磷酸化作用或糖基化作用的反映诸如化学修饰的 蛋白质的状态的信息可代替蛋白质表达使用或者与蛋白质表达组合使 用。对应于蛋白质的表达的临床信息也借助于输入设备l和数据处理设 备2存储在数据存储单元31中。当借助于蛋白质组分析分析某些样本 时,获得蛋白质的表达,但是对应于蛋白质的表达的临床信息是与提 供这些样本的个体有关的信息。临床信息总体而言指下述信息,即与 这些临床数值有关的信息、与疾病状态有关的信息、与药效有关的信 息、以及与存活时间(即样本采集后个体存活多久)有关的信息。
接下来在步骤A2中通过缺失值补充单元21补充蛋白质表达的缺失 值,并且将己补充缺失值的蛋白质表达存储在数据存储单元31中。
接下来参照图3说明通过k-最近邻算法补充缺失值的实际方法。
14首先,在步骤B1中将补充缺失值之前的蛋白质表达应用为从数据
存储单元31到缺失值补充单元21的输入。在步骤B2中,缺失值补充单 元21选择其表达已经以预定比例缺失的M个蛋白质,并且在步骤B3中, 设置缺失值补充中使用的蛋白质的数目K。接下来,在步骤B4中,将m 初始化为m-l,然后在步骤B5中使用无缺失的样本中的表达计算欧氏 距离并且査找K个邻近蛋白质,并且在步骤B6中,借助于相应于距离的 加权平均补充缺失值。如果w,是加权并且x,是蛋白质表达,则加权平均 通过以下求得-
<formula>formula see original document page 15</formula>
接下来,在步骤B7中,将"l"加到m,并且在步骤B8中确定m是 否已经达到M。如果itKM,则处理返回到步骤B5,而如果m-M则结束。 结果,对于表达缺失的M个蛋白质中的每个均进行步骤B4和B5中所示 的处理。
当已经补充缺失值时,数据划分单元22从数据存储单元31接收补 充缺失值后的所有样本的蛋白质表达数据。在步骤A3中,进行标志蛋 白质的查找,并且在预测模型的学习中使用的训练数据和用于评估从 所述训练数据学习到的预测模型的性能的验证数据之间划分这些标志 蛋白质的蛋白质表达数据。训练数据存储在训练数据存储单元32中, 并且验证数据存储在验证数据存储单元33中。
在步骤A4中,标志蛋白质查找单元23接下来从训练数据存储单元 32接收训练数据的蛋白质表达和对应的临床信息,从参数存储单元34 接收通过随机梯度增强的学习中所使用的参数,并且设置当下位学习 机被取为回归树时的随机增强的参数。在这样设置参数后,标志蛋白 质查找单元23通过监督学习为每种蛋白质计算是标志蛋白质的指标的 显著性。在显著性的计算中,在步骤A5中通过随机增强实现学习,其中蛋白质表达被取为属性,而临床信息被取为监督学习中的目标函数。
在通过随机增强的学习的处理中计算属性的显著性,如步骤A6中所示。 然后在步骤A7中基于显著性选择属性。然后将已赋予显著性的蛋白质 的表达与临床信息一起存储在标志蛋白质存储单元35中。
接下来参照图4,具体说明借助于随机梯度增强计算显著性的方法。
在步骤C1中,首先将蛋白质表达与临床信息的组合的集合D应 用为从训练数据存储单元32到标志蛋白质査找单元23的输入。N是 组合的数目,即获得的用于感兴趣的蛋白质的表达的样本的数目。
"-{(Wi)"-""^)}
其中x是蛋白质表达且y是临床信息。临床信息包括,例如,疾
病、常态或恶性、以及存活时间。接下来在步骤C2中设定压縮参数v 、
再抽样数s、学习的循环数M、和适于临床信息的类型的损失函数L。
在区分诸如疾病和常态的类别的分类问题中,损失函数L可使用 i = log(l + exp(—2yFO))) (3)
其中F(X)是判别函数。此外,在回归问题中,能够使用 "("F(x))2 (4)
或者
丄H" (5)
换言之,当临床信息包括离散值时,可使用诸如对数函数的函数 作为损失函数,而当临床信息包括连续值时,可使用真值与预测值之 差的平方值或者真值与预测值之差的绝对值作为损失函数。当临床信
息是存活时间时,可使用Cox比例风险模型作为损失函数。再抽样数S和压縮参数V的大小范围为
(6),
0<v^l (7)。
这里,引入再抽样数s和压縮参数v以避免原始数据的过度学习。
接下来在步骤C3中初始化判别函数Fo和循环数m,如下所示 F。=() (8),
附=1 (9)。
在步骤C4中,如下所示通过是下位学习机的回归树初始化学习的 数据项目数n:
"=1 (10)。
在步骤C5中,通过以下等式计算损失函数L的梯度:
0
=。CV 、£0",F(Xn))
(11)。
在步骤C5之后的步骤C6中,将"l"加到n,在步骤C7中确定 n是否已经达到N,并且如果rKN,则该处理返回到步骤C5,从而继 续步骤C5中计算损失函数的梯度的操作直至n达到N。
当步骤C7中n=N时,接下来进行s次数据的再抽样并且在步骤
S8中产生复制数据集合,并且在步骤C9中,通过回归树Tm学习复制
数据和损失函数的梯度的组合的集合R。
^{O",,^)"",",,^,)} (12)。
在步骤C10中,如下更新判别函数<formula>formula see original document page 18</formula> (13)。
在步骤C10之后,在步骤Cll中将"1"加到M,在步骤C12中 确定m是否已经达到M,并且如果nKM,则处理返回到步骤C4,从 而继续步骤C5至步骤C10的操作直至m变为M。
在上述随机梯度增强的回归树的学习处理中通过以下等式计算蛋 白质p的显著性Vp:
M^t (14)。
此处,Vp(TJ是学习第m个回归树时的显著性且其通过以下等式 定义
'=i (15)。
这里,Jm是第m个回归树的非终端节点的数目,I[t-p]是当在节点 t处分支的蛋白质为p时变为"1"的下标变量,且《是当在节点t处划 分时均方差的改善量。换言之,在学习处理的全部回归树中均缺乏分 支变量的蛋白质具有"0"的显著性,意味着这些蛋白质对临床信息变 量完全没有任何贡献并且与临床信息无关。
在该示例性实施例中,计算感兴趣的蛋白质的显著性的方法不限 于本文描述的随机梯度增强,而还可以釆用其它方法,包括集成学习 诸如增强和装袋。然而,当有很少的数据的项目时,优选地使用随机 梯度增强。
如在前面的说明中所描述的,如果在标志蛋白质査找单元23中从 训练数据计算是作为标志蛋白质的每个蛋白质的指标的显著性,则接 下来在步骤A8中预测模型学习单元24从训练数据存储单元32接收训 练数据的蛋白质表达和临床信息并从标志蛋白质存储单元35接收蛋白质的表达,并且通过诸如支持向量机的监督学习或者诸如聚类的非监 督学习来学习预测模型。学习后的预测模型存储在预测模型存储单元
36中。
在步骤A9中,验证单元25从预测模型存储单元36接收预测模型 并从验证数据存储单元33接收验证数据,并且对验证数据的临床信息 进行预测。从输出设备4提供预测结果。
在上述第一示例性实施例的标志蛋白质査找设备中,缺失的蛋白 质的表达的补充使得能够从较大量的蛋白质之中査找与临床信息有关 的蛋白质,并因此具有提高发现以前未能发现的标志蛋白质的可能性 的效果。
图5示出根据第二示例性实施例的标志蛋白质查找设备的构造。 图5中所示的标志蛋白质査找设备适应于以下情形能测量样本中蛋 白质的全部表达;或者仅将能测量表达的那些蛋白质取为分析的对象。 与图1中所示的第一示例性实施例的标志蛋白质查找设备相比,图5 中所示的设备的不同之处在于其没有提供缺失值补充单元。图6是示 出图5中所示的设备中标志蛋白质查找处理的示例的流程图,并且与 图2中所示的第一示例性实施例中的处理相比,不同之处仅在于其没 有提供缺失值补充处理。图5中所示的设备不进行表达中缺失值的补 充,而另外地执行与图1中所示的设备相同的标志蛋白质查找处理。
图7示出根据第三示例性实施例的标志蛋白质查找设备的构造。 图7中所示的标志蛋白质查找设备使用全部数据以査找标志蛋白质而 没有在训练数据和评估数据之间划分表达谱图数据,并且借助于已分 别准备的评估数据来评估通过标志蛋白质实现的预测性能。与图5中 所示的设备相比,图7中所示的设备缺乏数据划分单元、训练数据存 储单元、和验证数据存储单元,并且替代地,在存储设备3中设置有 评估数据存储单元37。这里,标志蛋白质查找单元23,又称为目标蛋白质查找装置,使用监督学习以从存储在数据存储单元31中的蛋白质
表达数据和临床信息确定标志蛋白质。评估数据存储单元37还称为评 估数据存储装置并且存储用于评估预测模型的性能的评估数据。
图8是示出图7中所示的设备中标志蛋白质査找处理的示例的流 程图。通过输入设备l给出执行指令,并且在步骤A1中,蛋白质的表 达和对应的临床信息被施加为借助于输入设备1到数据存储单元31的 输入并存储在数据存储单元31中。接下来,在步骤A4中,标志蛋白 质查找单元23从数据存储单元31接收训练数据的蛋白质表达和对应 的临床信息,从参数存储单元34接收随机梯度增强的学习中使用的参 数,并且设定假设下位学习机为回归树时的随机增强的参数。在这样 设定参数后,标志蛋白质查找单元23计算是作为标志蛋白质的每个标 志的指标的显著性。在步骤A5中显著性的计算中,通过随机增强进行 学习,而蛋白质表达作为属性且临床信息作为目标函数。在随机增强 学习处理中,如步骤A6中所示,为属性计算显著性。
接下来在步骤A7中,标志蛋白质査找单元23基于显著性选择属 性。然后将已赋予显著性的蛋白质的表达存储在标志蛋白质存储单元 35中。然后在步骤A8中,预测模型学习单元24从数据存储单元31 接收蛋白质表达和临床信息,从标志蛋白质存储单元35接收蛋白质的 表达,并且进行诸如支持向量机的监督学习或者诸如聚类的非监督学 习以学习预测模型。学习后的预测模型存储在预测模型存储单元36中。 接下来在步骤A10中,验证单元25从预测模型存储单元36接收预测 模型并从评估数据存储单元37接收评估数据以为临床信息进行评估数 据的预测。从输出设备4提供预测的结果。
在第三示例性实施例中,如第一示例性实施例中一样,能够采用 设置有缺失值补充单元21以补充缺失值的构造。
上述示例性实施例的每个的标志蛋白质查找方法均能通过以下方式实现使诸如个人计算机或工作站的计算机读取用于实现标志蛋白 质查找方法的计算机程序并然后执行所述程序。用于进行标志蛋白质
査找的程序被通过诸如磁带或CD-ROM的记录介质或者通过网络读取 到计算机。这种计算机由以下构成CPU (中央处理单元)、用于存储 程序和数据的外部存储设备、主存储器、诸如键盘或鼠标的输入设备、 输出设备或诸如CRT (阴极射线管)或液晶显示设备(LCD)的显示 设备、用于读取诸如磁带或CD-ROM的记录介质的读取设备、以及用 于连接到网络的通信接口。将硬盘驱动器等用作外部存储设备。
在该计算机中,存储用于执行标志蛋白质查找的程序的记录介质 装在读取设备上,该程序被从记录介质读取并存储在外部存储设备中, 并且通过CPU执行存储在外部存储设备中的该程序,或者,借助于网 络将程序下载到外部存储设备中并且通过CPU执行存储在外部存储设 备中的程序,从而执行上述标志蛋白质查找方法。
根据上述示例性实施例中的每一个,即使当多种蛋白质的表达与 临床信息相关时,也有可能查找到作为目标蛋白质的标志蛋白质并且 能合乎逻辑地确定用于确定蛋白质是否为标志蛋白质的阈值。此外, 该示例性实施例允许要通过质谱的氨基酸序列确定鉴定的标志蛋白质 的有效确定,并且该示例性实施例进一步允许蛋白质鉴定所需的时间 和工作的较大的减少。补充缺失值提高了能通过组比较的蛋白质的穷 竭性并能获取更多的生物学信息。
在另一个示例性实施例的蛋白质查找方法中,可以进一步提供用 于将谱图数据划分为在目标蛋白质査找中使用的训练数据和验证数据 的阶段,从而在确定阶段中,可基于使用从训练数据中的蛋白质表达 和临床信息的监督学习获得的蛋白质的显著性将与临床信息有关的蛋 白质确定为目标蛋白质,并且在评估阶段中,验证数据可用作评估数 据。此外,在又一示例性实施例中,可以包括另一阶段,其用于使用 其它蛋白质的表达以补充蛋白质表达的缺失值。本发明的又一目的在于提供蛋白质查找方法,该方法使得能够通 过随机梯度增强来查找多种蛋白质的表达与临床信息之间的相关性而 没有设置阈值,并且补充蛋白质表达的缺失值以提高能够通过组比较 的蛋白质的穷竭性。
本发明的再一目的在于提供蛋白质查找设备,该设备能借助于随 机梯度增强査找多种蛋白质的表达与临床信息之间的关联而没有设置 阈值,并能进行蛋白质表达的缺失值补充并提高能在组中比较的蛋白 质的穷竭性。
本专利申请要求基于2006年7月14日提交的日本专利申请No. 2006-194065的优先权,其公开内容在此通过引用而整体地并入。
示例
接下来描述实施本发明的一个示例的结果。
借助于荧光二维差异凝胶电泳对肝中肝癌的癌变部分的样本和非 癌变部分的样本进行蛋白质组分析。使用该蛋白质组分析的结果,使 用第一示例性实施例中所述的过程査找蛋白质。当未进行缺失值补充 时可作为结果分析的蛋白质的数目为101,而进行20%缺失值补充使得 能分析658种蛋白质,即超过六倍的蛋白质,这显著改进了穷竭性。 此外,当在查找标志蛋白质中使用随机梯度增强时,所述标志蛋白质 对于区分癌变部分和非癌变部分是有效的,未进行缺失值补充时找到 25种标志蛋白质,而20%的缺失值补充使得能够自动检测42种标志蛋 白质。
尽管以上已经参照示例性实施例和示例描述了本发明,但是本发 明不限于上述实施例和示例。对本领域技术人员来说显而易见的是, 本发明的构造和细节允许在本发明范围内的各种修改。
权利要求
1.一种蛋白质查找方法,用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质,所述蛋白质查找方法包括基于通过使用从所述谱图数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性,确定与所述信息相关的蛋白质作为目标蛋白质;以及借助于评估数据评估所述目标蛋白质的性能。
2. 根据权利要求l所述的方法,进一步包括将所述谱图数据划分 为目标蛋白质查找中使用的训练数据和验证数据;其中当确定与所述信息相关的蛋白质作为所述目标蛋白质时,基于通 过使用从所述训练数据中的蛋白质表达和所述信息的监督学习获得的 蛋白质的显著性,将与所述信息相关的蛋白质确定为所述目标蛋白质; 并且当评估所述目标蛋白质的性能时,将所述验证数据用作所述评估 数据。
3. 根据权利要求1或2所述的方法,进一步包括通过使用其它蛋白 质的表达补充所述蛋白质表达的缺失值。
4. 根据权利要求3所述的方法,其中通过k-最近邻算法补充蛋白质 表达的缺失值。
5. 根据权利要求1至4中任一项所述的方法,其中通过使用分支变 量和目标变量的改善度来计算所述显著性,所述分支变量和目标变量 是在通过集成学习的下位学习机的决策树或回归树的学习过程中产生 的。
6. 根据权利要求1至5中任一项所述的方法,其中使用增强、装袋、 梯度增强和随机梯度增强中的一种来计算所述显著性。
7. 根据权利要求1至6中任一项所述的方法,其中所述信息是临床 信息,并且所述目标蛋白质是标志蛋白质。
8. 根据权利要求7所述的方法,其中当所述临床信息包括离散值 时,在所述监督学习中使用对数函数作为损失函数。
9. 根据权利要求7所述的方法,其中当所述临床信息包括连续值 时,将真值与预测值之差的平方值或者真值与预测值之差的绝对值用 作损失函数。
10. 根据权利要求7所述的方法,其中当所述临床信息是存活时间 时,将Cox比例风险模型用于损失函数。
11. 根据权利要求1至10中任一项所述的方法,其中通过质谱法和 /或二维电泳法进行所述蛋白质组分析。
12. —种蛋白质査找设备,用于基于通过蛋白质组分析获取的蛋 白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质,所述蛋 白质查找设备包括数据存储装置,用于存储通过蛋白质组分析获取的蛋白质表达数 据和信息;目标蛋白质查找装置,用于使用从所述蛋白质表达数据和所述信 息的监督学习确定目标蛋白质;目标蛋白质存储装置,用于存储所述确定的目标蛋白质的表达;根据目标蛋白质的预测模型学习装置,用于使用所述确定的目标 蛋白质的所述表达和所述信息学习预测模型;预测模型存储装置,用于存储所述预测模型;评估数据存储装置,用于存储用于评估所述预测模型的性能的数 据;以及预测模型验证装置,用于借助于所述评估数据评估所述预测模型。
13. —种蛋白质查找设备,用于基于通过蛋白质组分析获取的蛋 白质表达谱图数据査找与信息相关的蛋白质作为目标蛋白质,所述蛋 白质查找设备包括数据存储装置,用于存储通过蛋白质组分析获取的蛋白质表达数 据和信息;数据划分装置,用于将所述蛋白质表达数据划分为目标蛋白质查 找中使用的训练数据和验证数据;训练数据存储装置,用于存储所述训练数据; 验证数据存储装置,用于存储所述验证数据;目标蛋白质查找装置,用于使用从所述训练数据和所述信息的监督学习确定目标蛋白质;目标蛋白质存储装置,用于存储所述确定的目标蛋白质的表达; 根据目标蛋白质的预测模型学习装置,用于使用所述确定的目标蛋白质的表达和所述信息学习预测模型;预测模型存储装置,用于存储所述预测模型;以及 预测模型验证装置,用于通过所述验证数据评估所述预测模型。
14. 根据权利要求12或13所述的设备,进一步包括缺失值补充装 置,用于通过使用其它蛋白质的表达补充所述目标蛋白质表达的缺失值。
15. 根据权利要求12至14中任一项所述的设备,其中所述信息是 临床信息,并且所述目标蛋白质是标志蛋白质。
16. —种可被计算机读取的记录介质,用于存储使计算机执行以 下处理的程序基于借助于蛋白质组分析获取的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质;所述程序使所 述计算机执行基于通过使用从所述谱图数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性,确定与所述信息有关的蛋白质作为目标蛋白质的处理;以及借助于评估数据评估所述目标蛋白质 的性能的处理。
17. —种可被计算机读取的记录介质,用于存储使计算机执行以 下处理的程序基于借助于蛋白质组分析获取的蛋白质表达谱图数据 査找与临床信息直接或间接相关的蛋白质作为目标蛋白质;所述程序 使所述计算机执行将所述谱图数据划分为目标蛋白质査找中使用的 训练数据和验证数据的处理;基于通过使用从所述训练数据中的蛋白 质表达和所述信息的监督学习获得的蛋白质的显著性,确定与所述信 息相关的蛋白质作为目标蛋白质的处理;以及借助于所述验证数据评 估所述目标蛋白质的性能的处理。
18. 根据权利要求16或17所述的记录介质,其中所述程序使所述 计算机进一步执行通过使用其它蛋白质的表达补充所述蛋白质表达的 缺失值的处理。
19. 根据权利要求16至18中任一项所述的记录介质,其中所述 信息是临床信息,并且所述目标蛋白质是标志蛋白质。
全文摘要
一种蛋白质查找方法,其中基于通过蛋白质组分析获得的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质,该方法包括基于通过对谱图数据中的信息和蛋白质表达量的监督学习获得的蛋白质的显著性选择与信息有关的蛋白质作为目标蛋白质;以及基于评估数据评估目标蛋白质的性能。
文档编号G06F19/24GK101517579SQ20078003398
公开日2009年8月26日 申请日期2007年7月9日 优先权日2006年7月14日
发明者上條宪一, 寺本礼仁, 皆川宏贵 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1