用于评估蛋白复合体之间的相互作用的方法和设备的制作方法

文档序号:6562065阅读:176来源:国知局
专利名称:用于评估蛋白复合体之间的相互作用的方法和设备的制作方法
技术领域
本发明涉及用于对蛋白复合体的相互作用属性的有效性进行评估的技术。
背景技术
为了理解生物体内的分子生物学机制,理解蛋白复合体之间的相互作用的相互作用属性(诸如活化作用、磷酸化作用、抑制作用等的方向和类型)是有益的。
另一方面,在通过试错技术来预测蛋白复合体相互作用的情况下,通常仅预测相互作用的存在性。尽管通过与文献使用配套的自然语言处理可以提取相互作用属性,但是结果包含噪声。目前,涉及蛋白复合体之间的相互作用的数据包括KEGG(Kyoto Encyclopedia of Genes andGenomes,[在线][2006年2月27日检索),因特网<URLhttp://www.genome.jp/keg/pathway.html>]),等。
图33是用于例示蛋白复合体之间的相互作用的示意图。当聚焦于蛋白复合体对的信息(以下称为“复合体对信息”)3300中的蛋白复合体之间的关系时,蛋白复合体CL1包含蛋白质P101到P104、P111到P113,蛋白复合体CR2包含蛋白质P201到P203、P211、P212、P221、P231。
如果在描述中对蛋白复合体的标号附加“L”,这表示引起相互作用的蛋白复合体。如果对蛋白复合体的标号附加“R”,这表示接收相互作用的蛋白复合体。在图33的情况下,蛋白复合体CL1是引起相互作用的蛋白复合体,蛋白复合体CR1是接收相互作用的蛋白复合体。于是限定了两个蛋白复合体CL1与CR2之间的相互作用的属性(在此情况下是磷酸化作用)。
通常,存在用于对如图33所示的蛋白复合体之间的相互作用的存在性进行估计的多种技术。例如,在以下文献中公开了这些技术日本特开第2003-208431、2003-238587、2004-203880、2005-063405号公报;日本专利第2002-535972号公报;Nat Biotechnol.2005 Aug.23(8),951-959,题为“Probabilistic model of the human protein-protein interactionnetwork”,Rhodes DR,Tomlins SA,et.Al.;以及CSB2005,题为“A ProteinInteraction Verification System Based On a Neural Network Algorithm”,MinSu Lee,Seung Soo Park and Min Kyung Kim。
日本专利第2004-509406号公报公开了一种用于根据基于蛋白质结构的属性对蛋白质与化合物的亲和力进行评估的方法。
日本特开第2005-135154号公报公开了一种基因本体术语预测方法,其获得分配有3个本体术语(本体)中的每一个的蛋白质、其两个序列相似性值,以及增加本体预测的精确性的条件,以预测剩余的第四个蛋白质的本体。
日本特开第2004-030093号公报公开了一种基因表达数据分析方法,其从基因组的本体信息中提取通用规则。
蛋白复合体CL1和CR2中的每一个中的蛋白质P101到P104、P111到P113、P201到P203、P211、P212、P221以及P231由分级结构构成。图34是蛋白复合体对的分级结构的示意图。在图34中,具有相同性质(变体)的蛋白质构成一亚单位。
例如,在蛋白复合体CL1中,蛋白质P101到P104构成亚单位SL10,蛋白质P111到P113构成亚单位SL11。
类似地,在蛋白复合体CR2中,蛋白质P201到P203构成亚单位SR20;蛋白质P211、P212构成亚单位SR21;蛋白质P221构成亚单位SR22;而蛋白质P231构成亚单位SR23。
如果在描述中对亚单位的标号附加“L”,这表示引起相互作用的蛋白复合体中的亚单位。如果对亚单位的标号附加“R”,这表示接收相互作用的蛋白复合体中的亚单位。
尽管在亚单位SL10、SL11以及SR21到SR23中的每一个中的蛋白质是可互换的,但是仍认为属于不同亚单位的蛋白质起到不同的作用。
相互作用被认为与“负责亚单位对”(其为在蛋白复合体CL1和CR2中包括的亚单位SL10、SL11以及SR21到SR23的组合的一部分)直接相关。因此,在生物信息学领域,必须在以下两个层次(1)和(2)上对蛋白质相互作用属性进行评估(1)在蛋白复合体层次上的相互作用属性,其对于理解整个系统的行为是必需的;和(2)在亚单位层次上的相互作用属性,其作为支持药物发现的基本信息是必需的。
然而,在上述常规技术中,未在以上两个层次上对蛋白复合体之间的相互作用属性执行有效性评估。

发明内容
本发明的一个目的是至少解决常规技术中的以上问题。
根据本发明的一个方面的对多个蛋白复合体之间的相互作用进行评估的方法包括以下步骤亚单位提取步骤,其从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质构成的亚单位;确定步骤,其确定所述亚单位中包括的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建步骤,其通过对与在所述确定步骤处确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,创建标识每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成步骤,其生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取步骤,其从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的多个规则构成的规则集中,提取应用于预测目标复合体对信息的预测规则,所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。
根据本发明的另一方面的对多个蛋白复合体之间的相互作用进行评估的方法包括以下步骤获取表示受相互作用影响的蛋白复合体对的复合体对信息;基于其中对代表蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中标识出排他家族,所述排他家族是代表所述多个蛋白质中的每一个的性质的代表性家族;以及将形成所述复合体对信息中的多个蛋白复合体的多个蛋白质分组成多个亚单位,该多个亚单位中的每一个亚单位都包括具有公共排他家族的多个蛋白质。
根据本发明的又一方面的用于对多个蛋白复合体之间的相互作用进行评估的设备包括亚单位提取单元,其被构造成从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质形成的亚单位;确定单元,其被构造成确定包括在所述亚单位中的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建单元,其被构造成通过对与由所述确定单元确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,来创建标识每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成单元,其被构造成生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取单元,其被构造成从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的规则集中提取应用于预测目标复合体对信息的预测规则,所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。
根据本发明的又一方面的用于对多个蛋白复合体之间的相互作用进行评估的设备包括获取单元,其被构造成获取表示受相互作用影响的蛋白复合体对的复合体对信息;标识单元,其被构造成基于其中对代表蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中标识出排他家族,所述排他家族是代表所述多个蛋白质中的每一个的性质的代表性家族;以及分组单元,其被构造成将形成所述复合体对信息中的蛋白复合体的蛋白质分组成多个亚单位,该多个亚单位中的每一个亚单位都包括具有公共排他家族的多个蛋白质。
当结合附图来阅读时,本发明的其他目的、特征以及优点在根据对本发明的以下详细描述中得到具体阐述,或者变得明了。


图1是根据本发明的实施例的相互作用评估设备的硬件配置的示意图;图2是相互作用评估设备的功能配置的框图;图3A是在形成亚单位之前和之后的蛋白复合体CL1的示意图;图3B是在形成亚单位之前和之后的蛋白复合体CR2的示意图;图4是图2所示的家族数据库(DB)的示意图;图5是亚单位形成单元的功能配置的框图;图6是例示出通过排他家族生成单元生成排他家族的示意图;图7是排他家族DB的示意图;图8A是复合体对信息获取单元的处理内容的示意图;图8B是排他家族标识单元的处理内容的示意图;图8C是组处理单元的处理内容的示意图;图9是通过亚单位形成单元的亚单位形成处理的流程图;图10是排他家族生成处理的流程图;图11是基因本体DB(GODB)的示意图;图12是学习单元的功能配置的框图;
图13是例示出蛋白质属性信息检测和亚单位属性信息生成的结果的示意图;图14是学习数据集的示意图;图15是相互作用类型的图表;图16A到16C是例示出规则匹配处理的结果的示意图;图17A是对从图16A所示的规则匹配处理的结果中获得的规则进行说明的示意图;图17B是对从图16B所示的规则匹配处理的结果中获得的规则进行说明的示意图;图17C是对从图16C所示的规则匹配处理的结果中获得的规则进行说明的示意图;图18是排序预测规则集的示意图;图19是学习单元的学习处理的流程图;图20是学习数据生成处理的流程图;图21是预测规则提取处理的流程图;图22是规则匹配处理的流程图;图23是预测规则确定处理的流程图;图24是预测目标生成单元和执行单元的功能配置的框图;图25是例示出提供给亚单位形成单元的预测目标的复合体对信息的示意图;图26是例示出与将成为预测目标的亚单位复合体对有关的信息的示意图;图27是预测目标数据的示意图;图28是用于对一致性确定的结果进行说明的示意图;图29是说明在应用了所有预测规则之后对预测属性可信度的计算结果的示意图;图30是例示出在相互作用属性已知时的执行结果的示意图;图31是例示出在相互作用属性未知时的执行结果的示意图;图32是执行单元的执行处理的流程图;
图33是例示出多个蛋白复合体之间的相互作用的示意图;以及图34是蛋白复合体对的分级结构的示意图。
具体实施例方式
下面将按以下部分1到4参照附图对根据本发明的多个示例性实施例进行详细说明1、对相互作用评估设备的总体概述(图1和2);2、相互作用评估设备的亚单位形成单元(图3到10);3、相互作用评估设备中的学习单元(图11到23);以及4、相互作用评估设备中的预测目标生成单元和执行单元(图24到32)。
<1、对相互作用评估设备的总体概述>
关于对相互作用评估设备的总体概述,以下将对相互作用评估设备的硬件配置、功能配置等进行描述。
图1是示出根据本发明的实施例的相互作用评估设备的硬件配置的框图。
如图1所示,相互作用评估设备包括中央处理器(CPU)101、只读存储器(ROM)102、随机存取存储器(RAM)103、硬盘驱动器(HDD)104、硬盘(HD)105、软盘驱动器(FDD)106、作为可移动记录介质的示例的软盘(FD)107、显示器108、接口(I/F)109、键盘110、鼠标111、扫描仪112以及打印机113。这些组成部件通过总线100相互连接。
CPU 101负责对相互作用评估设备进行总体控制。ROM 102存储诸如引导程序的程序。RAM 103用作CPU 101的工作区。HDD 104在CPU101的控制下从HD 105读取数据并向HD 105写入数据。HD 105存储在HDD 104的控制下写入的数据。
FDD 106在CPU 101的控制下从FD 107读取数据并向FD 107写入数据。FD 107存储在FDD 106的控制下写入的数据,并允许相互作用评估设备读取存储在FD 107中的数据。
除FD 107以外,可移动记录介质还可以是光盘只读存储器(CD-ROM)、可记录光盘(CD-R)、可擦写光盘(CD-RW)、磁光(MO)盘、数字多媒体盘(DVD)以及存储器卡。显示器108显示光标、图标或工具箱以及诸如文档、图像和功能信息的数据。例如,该显示器108可以是阴极射线管(CRT)、薄膜晶体管(TFT)液晶显示器以及等离子体显示器。
I/F 109通过通信线路连接到诸如因特网的网络114,并通过该网络114连接到其他设备。I/F 109负责在网络114与设备的内部之间进行交互,并对从外部设备的数据输入和向外部设备的数据输出进行控制。例如,I/F109可以是调制解调器和LAN适配器。
键盘110设置有用于输入字符、数字字符、各种指令等的多个键,以输入数据。也可以使用触摸板型输入板、数字小键盘等。鼠标111使光标移动、选择区域或对窗口进行移动和大小调节等。也可以使用追踪球或操纵杆,只要包括有点击(pointing)装置的类似功能。
扫描仪112光学地读取图像并将图像数据捕获到相互作用评估设备中。扫描仪112可以具有OCR功能。打印机113打印图像数据和文档数据。打印机113例如可以是激光打印机或喷墨打印机。
图2是根据本发明的相互作用评估设备的功能配置的框图。如图2所示,相互作用评估设备200包括家族DB 210、亚单位形成单元201、GODB 220、学习单元202、预测目标生成单元203以及执行单元204。
家族DB 210是其中作为具有类似性质的蛋白质组的家族的数据库。换句话说,属于一个家族的蛋白质具有类似的性质,并且认为在一个家族中的多个蛋白质中,在蛋白复合体中的多个蛋白质是可置换的。这种数据库的代表性示例是InterPro(http://www.ebi.ac.uk)。
基于家族DB 210,亚单位形成单元201对如图33所示的复合体对信息3300执行亚单位形成处理,以形成该复合体对信息3300中的多个亚单位。
上述家族具有分级结构,并包括属于不同家族的蛋白质。亚单位形成单元201关注于相当大的家族,将这个大家族中的蛋白质划分成相互排他的家族,以将包括在蛋白复合体中的一组蛋白质归类成一亚单位,该亚单位是一排他组。将该排他组称为排他家族。将按照该排他家族归类的复合体对信息称为亚单位复合体对信息230。
基因本体是蛋白质属性,如由人类添加的描述了蛋白质的特征的生物学过程、细胞定位以及分子功能。GODB 220存储与这种蛋白质属性有关的信息。
向学习单元202输入亚单位复合体对信息230,并从学习单元输出预测规则集240。具体来说,学习单元202基于GODB 220向亚单位复合体对信息230中的亚单位添加蛋白质属性。由此,获得了将包括有目标相互作用属性的亚单位与不包括目标相互作用属性的亚单位区分开的结构。
该结构是对各亚单位的相互作用属性的预测规则。该预测规则由“条件→结论”来表示。设定诸如“蛋白复合体中的亚单位的蛋白质属性是XXX”的条件,并获得诸如“相互作用类型是YYY”的结论。学习单元202输出预测规则以建立预测规则集940。将预测规则集240存储在诸如图1所示的RAM 103和HD 105的记录介质中。
即,如果针对蛋白复合体对中的多个亚单位的任意组合建立了预测规则,那么假设要将该预测规则应用于整个蛋白复合体对并认为存在与该预测规则相对应的相互作用属性。
向预测目标生成单元203输入预测目标的复合体对信息2400。复合体对信息2400包括与具有已知相互作用属性的蛋白复合体对和具有未知相互作用属性的蛋白复合体对有关的信息。预测目标生成单元203对复合体对信息2400执行亚单位形成处理,以生成预测目标数据250。
向执行单元204输入从预测目标生成单元203获得的预测目标数据250。执行单元204基于预测规则集240来计算属性得分作为执行结果。该属性得分是对亚单位对的相互作用属性的有效性评估。预测目标数据250是通过复合体对信息2400标识出的未知所述复合体对信息240的蛋白复合体之间或其亚单位之间的相互作用属性的数据。
通过计算属性得分,对于已知其相互作用属性的蛋白复合体对,可以估计出负责亚单位对。对于未知其相互作用属性的蛋白复合体对,可以同时估计出相互作用属性和负责亚单位对。
家族DB 210和GODB 220利用诸如图1所示的ROM 102、RAM 103以及HD 105的记录介质实现其功能。亚单位形成单元201、学习单元202、预测目标生成单元203以及执行单元204通过使用CPU 101执行记录在诸如ROM 102、RAM 103以及HD 105的记录介质上的程序来实现其功能。
已经参照图1和2对相互作用评估设备的总体概况进行了描述。下面将对以下部分进行描述2、相互作用评估设备的亚单位形成单元(图3到10);3、相互作用评估设备中的学习单元(图11到23);以及4、相互作用评估设备中的预测目标生成单元和执行单元(图24到32)。
<2、相互作用评估设备的亚单位形成单元>
亚单位形成单元201形成通过复合体对信息3300标识出的各蛋白复合体中的多个蛋白质的多个亚单位。图3A和3B是在形成亚单位之前和之后通过复合体对信息3300标识的蛋白复合体CL1和CR2的示意图。在图3A和3B中左侧的蛋白复合体CL1和CR2是在形成亚单位之前的蛋白复合体。右侧的蛋白复合体CL1和CR2是在形成亚单位之后的蛋白复合体。
在图3A所示的示例中,将蛋白复合体CL1中的蛋白质P101到P104分组成亚单位SL10,将蛋白质P111到P113分组成亚单位SL11。
在图3B所示的示例中,将蛋白复合体CR1中的蛋白质P201到P203分组成亚单位SR20;将蛋白质P211到P212分组成亚单位SR21;将蛋白质P221指配为亚单位SR22;并将蛋白质P231指配为亚单位SR23。
图4是图2所示的家族DB 210的示意图。家族DB 210存储各蛋白质的家族列表。具体来说,家族DB 210存储基因IDi(i=1到n)的蛋白质Pi的家族列表FLi。例如,蛋白质P1的家族列表FL1是FL1={Fa,Fb}。这表示蛋白质P1属于家族Fa和家族Fb。基因ID是蛋白质特有的标识信息。
图5是亚单位形成单元201的功能配置的框图。如图5所示,亚单位形成单元201包括排他家族生成单元501、复合体对信息获取单元502、排他家族提取单元503以及组处理单元504。
向排他家族生成单元501输入家族列表FLi。排他家族生成单元501标识出代表了蛋白质Pi的性质的最高概念的家族。将所标识出的家族称为排他家族。具体来说,排他家族生成单元501包括家族列表提取单元511、下限列表生成单元512、跟踪/链接单元513以及排他家族标识单元514。
家族列表提取单元511从家族DB 210提取蛋白质Pi的家族列表FLi。具体来说,利用基因IDi=1从蛋白质P1中按次序执行该提取。
下限列表生成单元512根据由家族列表提取单元511提取的家族列表FLi来生成下限列表。具体来说,通过顺序地添加正在被提取的家族列表FLi,并通过按这些家族的升序(例如,按加入家族Fa、Fb...的字母a、b...的次序)对该列表进行排序,来生成下限列表。
跟踪/链接单元513执行跟踪(追踪)处理和链接处理。跟踪处理是将一个家族列表FLi中的多个家族关联起来的处理。具体来说,通过从按升序排序后的家族列表FLi中的家族中跟踪更高级家族来将多个家族关联起来。
链接处理是将不同家族列表关联起来的处理。对彼此不交叠的多个家族列表执行链接处理。在链接处理中,当提取与彼此不交叠的两个家族列表均交叠的家族列表时,通过执行跟踪处理将彼此不交叠的两个家族列表中的多个最高级家族关联起来。
排他家族标识单元514根据包括由跟踪/链接单元513关联的多个家族的下限列表来标识出各蛋白质Pi的排他家族。例如,将蛋白质Pi的家族列表FLi的最高级家族标识为排他家族。
如果使用家族列表FLi中的最高级家族作为用于与另一家族相关联的关联源,则将关联目的地家族标识为排他家族。如果某个单个家族属于家族列表FLi并且如果该家族与任何家族都不相关联,那么将该家族直接标识为排他家族。将所标识出的排他家族连同蛋白质Pi的基因IDi一起存储在排他家族DB 500中。
图6是例示出通过排他家族生成单元501生成排他家族的示意图。标号601是由家族列表提取单元511提取的蛋白质P1到P4的家族列表FL1到FL4的图表。标号602表示由下限列表生成单元512生成的下限列表。下限列表602是在提取蛋白质P4的家族列表FL4时的列表,并按升序(即,在此情况下按字母次序)进行了排序。
下限列表602是用于创建排他家族的中间产品,并且每当提取家族列表FLi时对下限列表602进行更新。例如,当提取蛋白质P1的家族列表FL1时,获得了只包括家族列表FL1的下限列表。
当提取蛋白质P2的家族列表FL2时,将家族列表FL2添加到只包括家族列表FL1的下限列表。当提取蛋白质P3的家族列表FL3时,将家族列表FL3添加到包括家族列表FL1和FL2的下限列表。当提取蛋白质P4的家族列表FL4时,将家族列表FL4添加到包括家族列表FL1到FL3的下限列表。由此,获得了下限列表602。
在下限列表602中,家族列表FL4与家族列表FL1相交叠。即,家族Fb是属于家族列表FL1和FL4的家族。因此,跟踪/链接单元513通过从家族Fb跟踪到家族Fa(其按升序在家族列表FL1中更高),将家族Fb与家族Fa关联起来(图6中的箭头Tba)。
类似地,在下限列表602中,家族列表FL4与家族列表FL2相交叠。家族列表FL4中的家族Fe是属于家族列表FL2和FL4的家族。因此,跟踪/链接单元513通过从家族Fe跟踪到家族Fc(其按升序在家族列表FL2中更高),将家族Fe与家族Fc关联起来(图6中的箭头Tec)。
由于家族列表FL2包括按升序比家族Fe低的家族Ff,所以跟踪/链接单元513通过从家族Ff跟踪到家族Fe,将家族Ff与家族Fe关联起来(图6中的箭头Tfe)。
在下限列表602中,家族列表FL1与家族列表FL2不相交叠,而家族列表FL4与家族列表FL1和FL2都相交叠。因此,可以通过家族列表FL4将家族列表FL1与家族列表FL2链接起来。
因此,跟踪/链接单元513通过从家族Fc(其按升序在家族列表FL2中为高家族)链接到家族Fa(其按升序在家族列表FL1中为高家族),将家族列表FL2与家族列表FL1链接起来(图6中的箭头Lca)。
图6的右侧的图表603表示从下限列表602获得的各蛋白质的排他家族。对于蛋白质P1的家族列表FL1,FL1={Fa,Fb},并在跟踪处理中将家族Fb与更高级家族Fa关联起来(图6中的箭头Tba)。因此,蛋白质P1的排他家族是家族Fa。
对于蛋白质P2的家族列表FL2,FL2={Fc,Fe,Ff};在跟踪处理中将家族Ff与更高级家族Fe关联起来(图6中的箭头Tfe);并在跟踪处理中将家族Fe与更高级家族Fc关联起来(图6中的箭头Tec)。在链接处理中将家族Fc与家族Fa关联起来(图6中的箭头Lca)。因此,蛋白质P2的排他家族是家族Fa。
对于蛋白质P3的家族列表FL3,FL3={Fd},由于家族Fd不与任何家族相关联,所以将家族Fd直接定义为蛋白质P3的排他家族。
对于蛋白质P4的家族列表FL4,FL4={Fb,Fe},如上所述地将家族Fb和Fe中的每一个都与家族Fa关联起来。因此,家族P4的排他家族是家族Fa。
排他家族生成单元501在排他家族DB 500中存储构成每个蛋白质的一条记录的“基因ID”、“蛋白质(名称)”以及“排他家族”。图7是排他家族DB 500的示意图。
图5所示的复合体对信息获取单元502获取图33所示的复合体对信息3300。具体来说,复合体对信息获取单元502读取由用户指定的复合体对信息3300。排他家族标识单元514从通过由复合体对信息获取单元502获得的复合体对信息3300标识出的一对蛋白复合体CL1和CR2中标识出排他家族。
具体来说,通过使用包括在蛋白复合体CL1和CR2中的蛋白质的信息(例如,基因IDi和蛋白质(名称)Pi)作为从排他家族DB 500中提取蛋白质的排他家族的线索,可以标识出排他家族。
组处理单元504对从其中标识了排他家族的多个蛋白质执行分组,并针对各排他家族得到蛋白质组。蛋白质组是亚单位。图8A到8C分别是复合体对信息获取单元502、排他家族标识单元514以及组处理单元504的处理内容的示意图。在图8A到8C所示的示例中,通过对复合体对信息3300执行分组处理来形成亚单位。
如图8A所示,复合体对信息获取单元502获得复合体对信息3300。如图8B所示,排他家族标识单元514标识出蛋白复合体CL1和CR2中的每一个的多个蛋白质的多个排他家族。
针对蛋白质P101到P104标识出了排他家族F10;针对蛋白质P111到P113标识出了排他家族F11;针对蛋白质P201到P203标识出了排他家族F20;针对蛋白质P221、P231标识出了排他家族F21;针对蛋白质P221、P231未标识出排他家族,因为排他家族DB 500没有相对应的排他家族。
如图8C所示,组处理单元504将所述多个同一排他家族中的每一个的多个蛋白质组织起来,以形成多个亚单位。即,属于排他家族F10的蛋白质P101到P104构成亚单位SL10;属于排他家族F11的蛋白质P111到P113构成亚单位SL11;属于排他家族F20的蛋白质P201到P203构成亚单位SR20;而属于排他家族F21的蛋白质P211、P212构成亚单位SR21。由于针对蛋白质P221和P231未标识出排他家族,所以将不同的亚单位SR22、SR23指配给蛋白质P221、P231,以避免这些亚单位相交叠。
图9是图5所示的亚单位形成单元201的亚单位形成处理的流程图。排他家族生成单元501执行排他家族生成处理(步骤S901),然后复合体对信息获取单元502获得复合体对信息3300(步骤S902)。从一个蛋白复合体CL1的各蛋白质的排他家族DB 500中提取排他家族(步骤S903),组处理单元504通过使用这些家族来形成多个亚单位,以使用所标识出的排他家族将这些蛋白质组织起来(步骤S904)。
然后从另一个蛋白复合体CR2的各蛋白质的排他家族DB 500中提取排他家族(步骤S905),组处理单元504通过使用这些排他家族来形成多个亚单位,以使用所标识出的这些排他家族将这些蛋白质组织起来(步骤S906)。
图10是图9所示的排他家族生成处理的流程图。将基因IDi定义为i=1(步骤S1001),家族列表提取单元511从家族DB 210中提取蛋白质Pi的家族列表FLi(步骤S1002)。
下限列表生成单元512根据所提取的多个家族列表FLi的组来生成(更新)下限列表(步骤S1003)。跟踪/链接单元513对该下限列表执行跟踪处理和链接处理(步骤S1004),并使基因IDi递增(步骤S1005)。
如果不满足i>n(步骤S1004否),则过程回到步骤S1002。另一方面,如果满足i>n(步骤S1006是),则完成了下限列表并将基因IDi再次定义为i=1(步骤S1007)。排他家族标识单元514标识蛋白质Pi的排他家族(步骤S1008)。
将蛋白质Pi的所标识出的排他家族和信息(基因IDi和蛋白质名称)输出给排他家族DB 500作为记录(步骤S1009)。然后使基因IDi递增(步骤S1010)。如果不满足i>n(步骤S1011否),则过程回到步骤S1008。另一方面,如果满足i>n(步骤S1011是),则过程回到步骤S902。
由于上述亚单位形成单元201可以将包括在蛋白复合体CL1和CR2中的蛋白质组归类成作为排他组的亚单位,所以即使这些亚单位是构成一变体的未知蛋白质组,也可以标识出这些亚单位。通过获得这些亚单位,学习单元202可以高度精确地实现对预测规则的提取。
<3、相互作用评估设备中的学习单元>
如上所述,学习单元202使用亚单位复合体对信息230作为输入信息,并对GODB 220进行查询以输出预测规则集240。
图11是GODB 220的示意图。如图11所示,GODB 220存储各蛋白质Pi的基因本体术语列表(以下称为“GO术语列表“)。
GO术语列表GOi是蛋白质Pi的属性信息并具有呈树型结构的分级结构。GO术语列表GOi中的每一个节点表示蛋白质Pi的蛋白质属性信息。这些节点中的数字字符是属性标识信息(属性编号)j(j=1到m)。由Aj表示蛋白质属性信息。
图11所示的带有阴影的节点是包括在蛋白质Pi中的蛋白质属性信息Aj,而不带阴影的节点是不包括在蛋白质Pi中的蛋白质属性信息Aj。图11所示的蛋白质Pi表示该蛋白质包括属性编号j=1到3、5、6、10的蛋白质属性信息A1到A3、A5、A6以及A10。
图12是学习单元202的功能配置的框图。学习单元202包括学习数据生成器1201、预测规则提取单元1202以及得分计算单元1203。
向学习数据生成器1201输入亚单位复合体对信息230,并且学习数据生成器1201基于GODB 220生成从其中提取预测规则的学习数据。具体来说,学习数据生成器1201包括亚单位提取单元1211、蛋白质属性检测单元1212、亚单位属性生成单元1213以及学习数据生成单元1214。
亚单位提取单元1211从亚单位复合体对信息230中提取亚单位。例如,如果提取源是图8C所示的亚单位复合体对信息230,则提取亚单位SL10、SL11、SR20到SR23。
蛋白质属性检测单元1212从GODB 220检测出属于由亚单位提取单元1211提取的亚单位的蛋白质的蛋白质属性信息。例如,如果蛋白质Pi包括在所提取的亚单位中,则针对蛋白质Pi,从图11所示的GO术语列表GOi中检测出蛋白质属性信息A1到A3、A5、A6以及A10。
亚单位属性生成单元1213根据由蛋白质属性检测单元1212检测出的蛋白质属性信息Aj,生成与亚单位有关的蛋白质属性信息(以下称为“亚单位属性信息”)。具体来说,当关注于亚单位中的所有蛋白质时,通过将某些蛋白质属性信息Aj聚合起来,可以获得蛋白质属性信息Aj的亚单位属性信息。
例如,在如果针对亚单位中的所有蛋白质检测到了某个蛋白质属性信息Aj则将标记设定为“1”,而如果未检测到该信息则将标记设定为“0”的情况下,可以使用诸如逻辑乘法、逻辑加法以及多数判决法的聚合条件将亚单位中的所有蛋白质的所有标记聚合起来,并且可以使用该聚合结果作为蛋白质属性信息Aj的亚单位属性信息。
图13是例示出蛋白质属性信息检测和亚单位属性信息生成的结果的示意图。图13是针对各条蛋白质属性信息Aj的,对属于亚单位SL10的蛋白质P101到P104的检测结果。如上所述,如果检测到蛋白质属性信息Aj则将标记设定为“1”,而如果未检测到该信息则将标记设定为“0”。
例如,对于蛋白质属性信息A1的检测结果,由于蛋白质P101、P103、P104是“1”并且蛋白质P102是“0”,则如果聚合条件是逻辑乘法(“与”)则聚合结果是“0”;如果聚合条件是逻辑加法(“或”)则聚合结果是“1”;如果聚合条件是多数判决则聚合结果是“1”。以下由亚单位属性信息Bj来表示聚合蛋白质属性信息Aj。
图12所示的学习数据生成单元1214建立亚单位复合体对信息230的一个蛋白复合体CL1的多个亚单位和另一个蛋白复合体CR2的多个亚单位的所有组合,并添加蛋白复合体CL1与CR2之间的相互作用信息以输出学习数据。
图14是学习数据集的示意图。学习数据集1210是一组学习数据(在图14所示的示例中是学习数据1410、1420以及1430)。学习数据1410是与蛋白复合体CL1与CR2之间的相互作用有关的学习数据;学习数据1420是与蛋白复合体CL3与CR4之间的相互作用有关的学习数据;学习数据1430是与蛋白复合体CL5与CR6之间的相互作用有关的学习数据。
学习数据1410包括聚合结果信息1411和1412。学习数据1420包括聚合结果信息1421和1422。学习数据1430包括聚合结果信息1431和1432。
例如,在作为示例的学习数据1410中,蛋白复合体CL1具有亚单位SL10、SL11,而蛋白复合体CR2具有亚单位SR20到SR23。因此,学习数据生成单元1214建立了两个蛋白复合体CL1与CR2之间的8个(2×4)亚单位对。
在图14中,为方便起见,由同一行上的亚单位形成亚单位对({SL10,SR20},{SL10,SR21},{SL10,SR22},{SL10,SR23},{SL11,SR20},{SL11,SR21},{SL11,SR22},{SL11,SR23})。同样的规则适用于学习数据1420和1430。
除聚合结果信息以外,学习数据1410、1420以及1430还包括相互作用属性信息。该相互作用属性信息是从源复合体对信息3300接收过来的。该相互作用属性信息包括相互作用属性类型信息。
具体来说,一对亚单位CL1和CR2与学习数据1410中的相互作用属性类型信息1413相关联;一对亚单位CL3和CR4与学习数据1420中的相互作用属性类型信息1423相关联;一对亚单位CL5和CR6与学习数据1430中的相互作用属性类型信息1433相关联。相互作用属性类型信息中的圆圈标志表示相关相互作用类型。
例如,学习数据1410的相互作用类型是相互作用类型INk;学习数据1420的相互作用类型是相互作用类型INk;学习数据1430的相互作用类型是相互作用类型INk。由k(k=1到K)表示相互作用类型ID。
图15是相互作用类型的图表。参照图15,相互作用类型IN1表示“活化作用”;相互作用类型INk表示“磷酸化作用”;相互作用类型INK表示“抑制作用”。
相互作用属性信息包括相互作用方向信息。参照图14,在学习数据1410、1420以及1430中,蛋白复合体CL1、CL3以及CL5的聚合结果信息1411、1421以及1431是引起相互作用的蛋白复合体的亚单位属性信息,蛋白复合体CR2、CR4以及CR6的聚合结果信息1412、1422以及1432是接收相互作用的蛋白复合体的亚单位属性信息。在图14中,为方便起见,按此方式由聚合结果信息1411、1412、1421、1422、1431以及1432的位置来标识相互作用方向信息。
预测规则提取单元1202从学习数据集1210中提取预测规则。具体来说,预测规则提取单元1202包括规则匹配处理单元1221和预测规则确定单元1222。由“条件→结论”来表示预测规则,由于考虑蛋白复合体对,所以假设有3种类型的条件。
这3种类型的条件包括在“条件”中只使用引起相互作用的蛋白复合体中的亚单位的亚单位属性信息的情况、在“条件”中只使用接收相互作用的蛋白复合体中的亚单位的亚单位属性信息的情况、以及在“条件”中使用这两种蛋白复合体中的亚单位的亚单位信息的情况。
规则匹配处理单元1221应用上述3种类型的“条件”来执行规则匹配处理。在规则匹配处理中,执行所谓的关联分析。获得与该关联分析有关的参数并使用该参数来计算可信度和支持度。
图16A到16C是例示出规则匹配处理的结果的示意图。图16A到16C所示的结果基于图14所示的学习数据1410、1420以及1430。
通过使用位于学习数据1410、1420以及1430的相互作用引起侧的聚合结果信息1411、1421以及1431和相互作用类型信息1413、1423以及1433获得了图16A的规则匹配处理结果。为方便起见,在本描述中将相互作用属性类型信息1413、1423以及1433限制为相互作用类型INk。
通过使用位于学习数据1410、1420以及1430的相互作用接收侧的聚合结果信息1412、1422以及1432和相互作用类型信息1413、1423以及1433获得了图16B的规则匹配处理结果。通过使用图14所示的所有学习数据1410、1420以及1430获得了图16C的规则匹配处理结果。在此描述图16A的规则匹配处理结果作为结果的代表。
首先,针对亚单位属性信息Bj中的每一条对亚单位的检测数量进行计数。具体来说,当关注于学习数据1410的聚合结果信息1411中的蛋白复合体CL1的亚单位属性信息B1时,由于针对亚单位SL10未检测到亚单位属性信息B1,所以亚单位SL10的标记为“0”,由于针对亚单位SL11检测到了亚单位属性信息B1,所以亚单位SL11的标记为“1”。
在聚合结果信息1411中亚单位的总数是2个(亚单位S10和亚单位S11),并且由于所检测到的标记为“1”的亚单位是亚单位S11,所以检测数量是1个。在图16A中针对蛋白复合体CL1输入“1/2”(检测数量)/(总亚单位数量)。
针对各蛋白复合体CL1、CL3以及CL5对多条亚单位属性信息的亚单位的检测数量进行计数。具体来说,当关注于学习数据1410的聚合结果信息1411中的蛋白复合体CL1的亚单位属性信息B1、Bj时,由于针对亚单位SL10未检测到亚单位属性信息B1和Bj,所以亚单位SL10的标记是“0”,由于针对亚单位SL11检测到了亚单位属性信息B1、Bj,所以亚单位SL11的标记是“1”。
在聚合结果信息1411中亚单位的总数是2个(亚单位S10和亚单位S11),并且由于所检测到的标记为“1”的亚单位是亚单位S11,所以检测数量是1个。在图16A中,针对蛋白复合体CL1输入“1/2”(检测数量)/(总亚单位数量)。对各蛋白复合体CL3和CL5也执行这种处理。
计算用于计算可信度的参数。可信度是当产生了“条件”时“结论”的出现率,并可以由下式来表示COjk=xjk/Xjk(1)在亚单位属性信息Bj和相互作用类型INk的情况下,COjk是可信度,xjk是包括有“条件”和“结论”的检测数量,Xjk是包括有“条件”的检测数量。
具体来说,检测数量Xjk是亚单位属性信息Bj(其为条件)的总检测数量。例如,在亚单位属性信息Bj中,蛋白复合体CL1的检测数量是“2”;蛋白复合体CL3的检测数量是“1”;蛋白复合体CL5的检测数量是“1”;因此,得到了Xjk=4。
另一方面,检测数量Xjk必须也满足“结论”。因此,在图16A中,仅当相互作用类型INk由“圆圈标志”表示时,才计入检测数量,而当相互作用类型INk由“x”表示时,不计入检测数量。例如,在亚单位属性信息Bj中,由于计入了蛋白复合体CL1的检测数量为“2”,并且计入蛋白复合体CL3的检测数量为“1”,不计入蛋白复合体CL5的检测数量为“1”,所以得到了xjk=3。因此,根据公式1,可信度COjk是3/4。
尽管对于所提取的预测规则的值判断,获得可信度是重要的,但是即使可信度COjk高,如果支持度SUjk低,则所提取的预测规则也具有极低的出现次数。因此,对支持度SUjk进行计算和评估是重要的。
支持度SUjk是同时满足“条件”和“结论”的检测数量与总亚单位数量的比率,并可以由下式2来表示SUjk=xjk/Njk(2)在亚单位属性信息Bj和相互作用类型INk的情况下,Njk是亚单位属性信息Bj中的总亚单位数量。由于各蛋白复合体CL1、CL3以及CL5的总亚单位数量是“2”,所以亚单位属性信息Bj中的总亚单位数量是Njk=6。另一方面,njk是与“条件”相对应的“结论”的数量。在图16A中,这对应于使用相互作用类型INk作为“结论”时的次数,即,在图16A所示的示例中的圆圈标志的数量(njk=2)。
在图16C所示的示例中,必须考虑引起相互作用的蛋白复合体CL1、CL3以及CL5的亚单位属性信息B1到Bm和接收相互作用的蛋白复合体CR2、CR4以及CR6的亚单位属性信息B1到Bm。即,对于各蛋白复合体对{CL1,CR2}、{CL3,CR4}、{CL5,CR6}存在亚单位属性信息的m×m个组合{B1,B1}、...、{B1,Bj}、...、{B1,Bm}、...、{Bj,B1}、...、{Bj,Bj}、...、{Bj,Bm}、...、{Bm,B1}、...、{Bm,Bj}、...、{Bm,Bm}。
在图16C所示的示例中,由粗线包围的亚单位属性信息{B1,Bj}表示B1是引起相互作用的蛋白复合体CL1、CL3、C15的亚单位属性信息并且Bj是接收相互作用的蛋白复合体CR2、CR4、CR6的亚单位属性信息。
更具体来说,例如,在蛋白复合体对{CL1,CR2}中,对于满足在蛋白复合体CL1中存在亚单位属性信息B1并且在蛋白复合体对CR2中存在亚单位属性信息Bj的亚单位对的数量,参照图14,在蛋白复合体对{CL1,CR2}的8个组合(总亚单位对数)中这种亚单位对有两个模式{SL11,SR22}、{SL11,SR23}。因此,在图1 6C所示的示例中输入“2/8”。
图17A是用于对从图16A所示的规则匹配处理的结果中获得的规则进行说明的示意图;图17B是用于对从图16B所示的规则匹配处理的结果中获得的规则进行说明的示意图;图17C是用于对从图16C所示的规则匹配处理的结果中获得的规则进行说明的示意图。
预测规则确定单元1222基于由规则匹配处理单元1221获得的可信度COjk和支持度SUjk来确定预测规则。具体来说,在亚单位属性信息Bj和相互作用类型INk的情况下,对于表示“如果一个亚单位的亚单位属性信息是Bj,则相互作用类型是INk”(以下称为“Bj→INk”)的规则,确定可信度COjk是否等于或大于阈值COt。如果可信度COjk等于或大于阈值COt,则将“Bj→INk”确定为预测规则。
通过考虑支持度SUjk来提高预测精度。因此,如果可信度COjk等于或大于阈值COt,则可以确定支持度SUjk是否等于或大于阈值SUt。如果可信度COjk等于或大于阈值Cot并且如果支持度SUjk等于或大于阈值SUt,则可以将“Bj→INk”确定为预测规则。
得分计算单元1203对由预测规则确定单元1222确定的预测规则的得分进行计算。具体来说,例如,得分计算单元1203计算优势对数(LOD)得分。在亚单位属性信息Bj和相互作用类型INk的情况下,相互作用类型INk的比率是njk/Njk。LOD得分是用于对可信度COj相对于相互作用类型INk有多大(njk/Njk)进行评估的得分。
即,LOD得分表示与表示预测规则有多频繁地出现的似然性有关的异常性的程度,并且LOD得分越大,预测规则就越好地反应了特性。可以由下式3表示LOD得分LODscore=log10CxnxN-nCX-xCXN]]>(3)得分计算单元1203按从最高计算得分起的次序对预测规则进行排序,以对预测规则进行排序。图18是对排序预测规则集240的说明图。按此方式,学习单元202可以获得排序预测规则集240。
图19是学习单元202的学习处理的流程图。学习数据生成器1201执行学习数据生成处理(步骤S1901)。从学习数据中提取与引起相互作用的一个亚单位蛋白复合体有关的学习数据(步骤S1902)。
具体来说,例如,在图14所示的学习数据集1210中,提取聚合结果信息1411、1421以及143 1和相互作用类型信息1413、1423以及1433。预测规则提取单元1202执行预测规则提取处理(步骤S1903)。然后从学习数据提取与接收相互作用的另一个亚单位蛋白复合体有关的学习数据(步骤S1904)。
例如,在图14所示的学习数据集1210中,提取聚合结果信息1412、1422以及1432和相互作用类型信息1413、1423以及1433。预测规则提取单元1202执行预测规则提取处理(步骤S1905)。然后提取所有学习数据(步骤S1906),然后预测规则提取单元1202执行预测规则提取处理(步骤S1907)。
得分计算单元1203计算LOD得分,并按从最高得分起的次序对预测规则进行排序以对预测规则进行排序(步骤S1908)。存储经排序的预测规则集240(步骤S1909)。
图20是学习数据生成处理的流程图。在一组亚单位复合体对信息230中确定是否存在用于蛋白质属性信息Aj的检测的未处理亚单位(步骤S2001)。如果存在未处理亚单位(步骤S2001是),则提取该未处理亚单位(步骤S2002)。
将蛋白质属性信息Aj的属性编号j设定为j=1(步骤S2003),并通过查询GODB 220,蛋白质属性检测单元1212对所提取的亚单位中的多个蛋白质的蛋白质属性信息Aj进行检测(步骤S2004)。确定是否达到了j=m(步骤S2005),如果尚未达到j=m(步骤S2005否),则使j递增(步骤S2006)并且过程回到步骤S2004。
另一方面,如果达到了j=m(步骤S2005是),则过程回到步骤S2001。在步骤S2001处,如果不存在未处理亚单位(步骤S2001否),则确定是否存在用于蛋白质属性信息Bj的检测的未处理亚单位(步骤S2007)。如果存在未处理亚单位(步骤S2007是),则提取该未处理亚单位(步骤S2008)。
将蛋白质属性信息Bj的属性编号j设定为j=1(步骤S2009),亚单位属性生成单元1213生成亚单位属性信息Bj(步骤S2010)。
然后确定是否达到了j=m(m是最大属性编号)(步骤S2011),如果尚未达到j=m(步骤S2011否),则使j递增(步骤S2012)并且过程回到步骤S2010。
另一方面,如果达到了j=m(步骤S2011是),则过程回到步骤S2007。在步骤S2007处,如果不存在未处理亚单位(步骤S2007否),则学习数据生成单元1214可以执行组合构造(步骤S2013)以获得图14所示的学习数据集1210。
图21是预测规则提取处理的流程图。将相互作用类型IDk设定为k=1(步骤S2101),规则匹配处理单元1221对相互作用类型INk执行规则匹配处理(步骤S2102)。
预测规则确定单元1222执行预测规则确定处理(步骤S2103)。确定是否达到了k=K(步骤S2104),如果尚未否达到k=K(步骤S2104否),则使k递增(步骤S2105),并且过程回到步骤S2102处的规则匹配处理。另一方面,如果达到了k=K(步骤S2104是),则过程转到步骤S1904。
如果该预测规则提取处理是在步骤S1905处执行的处理,则过程转到步骤S1906,如果该处理是在步骤S1907处执行的处理,则过程转到步骤S1908。
图22是规则匹配处理的流程图。首先,定义j=1(步骤S2201),针对各蛋白复合体中的亚单位属性信息Bj对带有规则匹配的亚单位的数量进行检测(步骤S2202)。通过该处理获得了图13的上半部中所示的检测结果。
对检测数量xjk、检测数量Xjk以及总亚单位数量Njk进行计数(步骤S2203)。使用这些参数来计算可信度COjk(步骤S2204)和支持度SUjk(步骤S2205)。
然后确定是否达到了j=m(步骤S2206),如果尚未否达到j=m(步骤S2206否),则使j递增(步骤S2207),并且过程回到步骤S2202。另一方面,如果达到了j=m(步骤S2206是),则过程转到步骤S2103。
图23是预测规则确定处理的流程图。首先定义j=1(步骤S2301),然后确定是否实现了COjk≥COt(步骤S2302)。如果未实现COjk≥COt(步骤S2302否),则过程转到步骤S2305。
另一方面,如果实现了COjk≥COt(步骤S2302是),则确定是否实现了SUjk>SUt(步骤S2303)。如果未实现SUjk≥SUt(步骤S2303否),则过程转到步骤S2305。
如果实现了SUjk≥SUt(步骤S2303是),则将规则“Bj→INk”确定为预测规则(步骤S2304),并且过程转到步骤S2305。在步骤S2305处,确定是否达到了j=m,如果未达到j=m(步骤S2305否),则使j递增(步骤S2306)并且过程回到步骤S2302。如果达到了j=m(步骤S2305是),则过程转到步骤S2104。
在上述规则匹配处理(步骤S2102)中,为了描述方便起见,在步骤S2202处针对亚单位属性信息Bj对带有规则匹配的亚单位的数量进行检测,并且为了描述方便起见略去了使用图16A到16C所示的多条亚单位属性信息的情况(例如,图16A和16B的{B1,Bj}和图16C的亚单位属性信息的组合)。然而,针对多条亚单位属性信息,可以如上所述地对检测数量xjk、Xjk以及总亚单位数量Njk进行检测,并且可以计算可信度COjk和支持度SUjk。
按此方式,学习单元202可以从通过给出亚单位复合体对230而获得的规则中提取可靠的规则。
<4、相互作用评估设备中的预测目标生成单元和执行单元>
如上所述,向预测目标生成单元203输入预测目标的复合体对信息2400。预测目标生成单元203获得复合体对信息2400的亚单位并最终创建预测目标数据250。
将预测目标数据250输入给执行单元204,然后执行单元204对由学习单元202获得的预测规则集240进行查询以计算执行结果,即,属性得分(其为对亚单位对的相互作用属性的有效性评估)。
图24是预测目标生成单元203和执行单元204的功能配置的框图。预测目标生成单元203包括亚单位形成单元201和在学习单元202中使用的学习数据生成器1201。具体来说,亚单位形成单元201捕获与带有已知相互作用属性的蛋白复合体对和带有未知相互作用属性的蛋白复合体对有关的复合体对信息2400。
图25是例示出提供给亚单位形成单元201的预测目标复合体对信息2400的示意图。在图25中,作为示例,复合体对信息2400表示在包括有蛋白质PL01到PL04、PL11到PL13、PL21的蛋白复合体CLy与包括有蛋白质PR01到PR03和PR11到PR12的蛋白复合体CRz之间的相互作用(相互作用类型INk)。如果相互作用属性是未知的,则不包括该相互作用类型INk。
如上所述,亚单位形成单元201根据预测目标复合体对信息2400生成亚单位复合体对信息2410。图26是例示出与将成为预测目标的亚单位复合体对有关的信息2410的示意图。参照图26,在蛋白复合体CLy中,蛋白质PL01到PL04构成亚单位SLy0;蛋白质PL11到PL13构成亚单位SLy1;蛋白质PL21构成亚单位SLy2。类似地,在蛋白复合体CRz中,蛋白质PR01到PR03构成亚单位SRz0,并且蛋白质PR11、PR12构成亚单位SRz1。
学习数据生成器1201使用亚单位复合体对信息2410作为输入信息并对GODB 220进行查询,以通过与针对学习数据的处理相同的处理来生成预测目标数据250。因此,预测目标数据250具有与上述学习数据相同的数据结构。
执行单元204包括预测目标获取单元2401、最高级规则提取单元2402、一致性确定单元2403、属性可信度计算单元2404、标识单元2405以及输出单元2406。预测目标获取单元2401获取预测目标数据250。
图27是预测目标数据250的示意图。预测目标数据250包括蛋白复合体CLy的聚合结果信息2701、蛋白复合体CRz的聚合结果信息2702以及相互作用类型信息2703。如果相互作用属性是未知的,则不包括该相互作用类型信息2703。预测目标获取单元2401读取按此方式获得的预测目标亚单位属性信息。
图24所示的最高级规则提取单元2402从由学习单元202获得的预测规则集240中顺序地提取排序在最高级处的未提取预测规则。不再提取已提取了一次的预测规则。在初始条件下,提取排序第一的预测规则(即,带有最高LOD得分的预测规则),然后按排序第二、排序第三等等的次序提取预测规则。
一致性确定单元2403确定由预测目标获取单元2401获得的预测目标数据250是否与由最高级规则提取单元2402提取的预测规则相一致。具体来说,确定预测目标数据250的聚合结果信息是否包括与构成预测规则的条件的亚单位属性信息Bj相同的亚单位属性信息Bj。如果预测目标数据250包括相互作用类型信息,则也可以确定相互作用类型是否相同。
图28是用于对一致性确定过程的结果进行说明的示意图。在图28所示的示例中,提取图18所示的排名第一的预测规则。该预测规则2800表示“在引起相互作用的亚单位SLa的亚单位属性信息Bj的情况下(=真),相互作用类型是活化作用(=真)”。
另一方面,在预测目标数据250中的引起相互作用的蛋白复合体CLy的聚合结果信息2701中,由于亚单位SLy0具有亚单位属性信息Bj,所以针对蛋白复合体CLy与CRz之间的预测规则2800生成规则匹配。在此情况下,两种相互作用类型都是磷酸化作用(INk)并且是相同的。因此,如果在一致性确定中考虑相互作用类型,则针对预测规则2800生成规则匹配。
图24所示的属性可信度计算单元2404通过一致性确定单元2403计算关于与预测目标数据250相匹配的预测规则的预测属性可信度。该预测属性可信度是作为对亚单位对的相互作用属性的有效性评估的属性得分,并且通过使用与预测目标数据250相匹配的预测规则的可信度COjk来计算该预测属性可信度。具体来说,使用下式4来执行该计算PCk=COr×RC(4)在公式4中,PCk是与生成规则匹配的预测规则有关的预测属性可信度;COr是与生成规则匹配的预测规则有关的可信度COjk;并且RC是剩余可信度。剩余可信度RC的初值是RC=1,并且每次计算预测属性可信度PC时使所计算出的预测属性可信度PCk递减。即,剩余可信度RC是与在进行了一致性确定之后从预测规则的最高LOD得分起的次序成比例的系数。因此,位于更高排序处的预测规则对预测属性可信度PCk有更大的影响。
图29是用于对在应用了所有预测规则之后对预测属性可信度PCk的计算结果进行说明的示意图。如图29所示,针对各亚单位对SLy#、SRz#(#是数字)对预测属性可信度PC进行计算。
图24所示的负责亚单位对/相互作用属性标识单元2405在应用了所有预测规则之后,从对预测属性可信度PCk的计算结果中,标识出带有已知相互作用属性的蛋白复合体对的负责亚单位和带有未知相互作用属性的蛋白复合体对的负责亚单位。
具体来说,对于带有已知相互作用属性的蛋白复合体对,将具有最高预测属性可信度PC的亚单位对标识为负责亚单位对。在图29所示的示例中,如果相互作用属性是“磷酸化作用”(相互作用类型INk),则将具有预测属性可信度PC=0.7的亚单位(由图29中的阴影示出)标识为负责亚单位对。
对于带有未知相互作用属性的蛋白复合体对,由于不知道应当将预测属性可信度PC关注于什么相互作用类型INk,所以对等于或大于阈值PCt的预测属性可信度PCk进行检测,并使用其相互作用类型INk来标识出相互作用属性。由于标识了相互作用类型Ink,因此如带有已知相互作用属性的情况那样可以同时标识出负责亚单位对。
具体来说,在图29的示例中,在阈值PCt=0.75的情况下,等于或大于PCt的预测属性可信度PCk是PC1=0.9和PCk=0.8(由图29中的阴影部分示出)。因此,由于k=1和k=K,所以将相互作用属性标识为“活化作用”或“抑制作用”。
将具有预测属性可信度PC1=0.9的亚对单位{SLy0,SRz1}标识为负责亚单位对。类似地,将具有预测属性可信度PCK=0.8的亚对单位{SLy2,SRz1}标识为负责亚单位对。
输出单元2406输出执行结果,即,由负责亚单位对/相互作用属性标识单元2405标识出的负责亚单位对和相互作用属性。输出格式可以是诸如屏面显示、打印输出或数据存储的任何形式。以下示出使用图26所示的亚单位复合体对信息2410的执行结果。
图30是例示出在相互作用属性已知(例如,磷酸化作用)时的执行结果的示意图。由表示相互作用的方向的箭头来表示在图29的示例中标识出的负责亚单位对{SLy1,SRz0}(由图30中的阴影部分示出)。
图31是例示出在相互作用属性未知时的执行结果的示意图。由表示所标识出的相互作用(抑制作用、活化作用)的方向的箭头来表示在图29的示例中标识出的负责亚单位对{SLy0,SRz1}和{SLy2,SRz1}(由图31中的阴影部分示出)。
图32是执行单元204的执行处理的流程图。亚单位形成单元201和学习数据生成器1201生成预测目标数据250(步骤S3201)。
预测目标获取单元240 1获取所创建的预测目标数据250(步骤S3202)。将剩余可信度RC的初值设定为RC=1(步骤S3203),并确定是否已将预测规则集240中的所有预测规则应用于规则匹配(步骤S3204)。
如果存在未应用预测规则(步骤S3204否),则最高级规则提取单元2402提取在未应用预测规则中排序在最高级处的预测规则(步骤S3205)。一致性确定单元2403确定是否生成了规则匹配(步骤S3206)。
如果尚未生成规则匹配(步骤S3206否),则过程返回到步骤S3204。另一方面,如果生成了规则匹配(步骤S3206是),则属性可信度计算单元2404针对生成了规则匹配的预测规则来计算预测属性可信度PCk(步骤S3207)。从当前剩余可信度RC减去所计算出的预测可信度PCk,以更新剩余可信度RC(步骤S3208),然后过程回到步骤S3204。
如果在步骤S3204处已应用了所有预测规则(步骤S3204是),则确定预测目标的相互作用属性是否是已知的(步骤S3209)。如果该相互作用属性是已知的(步骤S3209是),则负责亚单位对/相互作用属性标识单元2405标识出负责亚单位对(步骤S3210),输出该负责亚单位对作为执行结果(步骤S3212)。
另一方面,如果该相互作用属性是未知的(步骤S3209否),则负责亚单位对/相互作用属性标识单元2405标识出预测目标蛋白复合体之间的相互作用属性及其负责亚单位对(步骤S3211),输出该相互作用属性及其负责亚单位对作为执行结果(步骤S3212)。
由此,根据上述预测目标生成单元203和执行单元204,可以针对带有已知相互作用属性的蛋白复合体对推断出负责亚单位对。同时可以针对带有未知相互作用属性的蛋白复合体对推断出负责亚单位对。
如上所述,根据蛋白复合体相互作用评估程序、记录有该程序的记录介质、相互作用评估设备以及蛋白复合体相互作用评估方法,可以有效并高度精确地实现对相互作用属性的有效性评估。
通过使用诸如个人计算机和工作站的计算机执行预先准备的程序,可以实现在本实施例中描述的蛋白复合体相互作用评估方法。将该程序记录在诸如HD、FD、CD-ROM、MO以及DVD的计算机可读记录介质上,并由计算机从该记录介质来读取以执行该程序。该程序可以是可以通过诸如因特网的网络来发布的传输介质。
根据上述多个实施例,可以对相互作用属性有效并高度精确地执行有效性评估。
尽管针对具体实施例对本发明进行了描述以进行完全和清楚的公开,但是所附权利要求并不由此受到限制,而应被解释为体现了本领域的技术人员可能会发现的落在此处阐述的基本教导之内的所有修改例和另选结构。
本申请基于并且要求2006年5月30日提交的在先日本专利申请2006-150672号的优先权,通过引用将其全部内容合并于此。
权利要求
1.一种对多个蛋白复合体之间的相互作用进行评估的方法,该方法包括以下步骤亚单位提取步骤,其从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组成对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质构成的亚单位;确定步骤,其确定所述亚单位中包括的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建步骤,其通过对与在所述确定步骤处确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,创建标识针对每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成步骤,其生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识针对每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取步骤,其从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的多个规则构成的规则集中,提取应用于预测目标复合体对信息的预测规则,所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。
2.根据权利要求1所述的方法,该方法还包括以下步骤检测步骤,其从所述学习数据中检测只具有所述亚单位属性信息的亚单位的数量和既具有所述亚单位属性信息又具有所述相互作用属性信息的亚单位的数量;和可信度计算步骤,其基于在所述检测步骤处的检测结果来计算所述规则的可信度,其中所述预测规则提取步骤包括基于所述可信度提取所述预测规则的步骤。
3.根据权利要求2所述的方法,该方法还包括支持度计算步骤,该支持度计算步骤基于所述亚单位的数量和所述亚单位的总数来计算所述规则的支持度,其中所述预测规则提取步骤包括基于所述支持度提取所述预测规则的步骤。
4.根据权利要求2所述的方法,该方法还包括优势对数得分计算步骤,该优势对数得分计算步骤基于所述亚单位的数量计算所述预测规则的优势对数得分。
5.根据权利要求2所述的方法,该方法还包括以下步骤预测目标数据获取步骤,其获取作为所述预测目标复合体对信息的学习数据的预测目标数据;判断步骤,其判断在所述预测目标数据中是否存在与所述预测规则相一致的规则;标识步骤,其基于在所述判断步骤处的判断结果,使用所述预测规则标识出受相互作用影响的负责亚单位对和相互作用属性中的至少一个;以及输出步骤,其输出在所述标识步骤处的标识结果,其中对于其相互作用属性已知的预测目标蛋白复合体对,在所述标识步骤处标识出所述负责亚单位对,并且对于其相互作用属性未知的预测目标蛋白复合体对,在所述标识步骤处标识出所述负责亚单位对和所述相互作用属性。
6.根据权利要求5所述的方法,其中所述标识步骤包括以下步骤基于在所述判断步骤中被判断为一致的预测规则的可信度,标识出所述负责亚单位对和所述相互作用属性中的至少一个。
7.根据权利要求6所述的方法,其中所述标识步骤包括以下步骤基于与从所述预测规则的最高优势对数得分起的次序成比例的系数,标识出所述负责亚单位对和所述相互作用属性中的至少一个。
8.根据权利要求1所述的方法,该方法还包括以下步骤复合体对信息获取步骤,其获取表示受相互作用影响的蛋白复合体对的复合体对信息;排他家族标识步骤,其基于其中对表示蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中,标识出作为表示每一个所述蛋白质的性质的代表性家族的排他家族;以及分组步骤,其将形成所述复合体对信息中的蛋白复合体的蛋白质分组成每一个都包括具有公共排他家族的蛋白质的多个亚单位,以将所述复合体对信息转换成亚单位复合体对信息,其中所述亚单位提取步骤包括从所述亚单位复合体对信息中提取所述亚单位的步骤。
9.一种对多个蛋白复合体之间的相互作用进行评估的方法,该方法包括以下步骤复合体对信息获取步骤,其获取表示受相互作用影响的蛋白复合体对的复合体对信息;排他家族标识步骤,其基于其中对表示蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中,标识出作为表示每一个所述蛋白质的性质的代表性家族的排他家族;以及分组步骤,其将形成所述复合体对信息中的蛋白复合体的蛋白质分组成多个亚单位,每一个所述亚单位都包括具有公共排他家族的蛋白质。
10.一种用于对多个蛋白复合体之间的相互作用进行评估的设备,该设备包括亚单位提取单元,其被构造成从表示包括其间具有相互作用的多个蛋白复合体的蛋白复合体对的一组成对信息中,提取由在形成所述多个蛋白复合体的多个蛋白质中的具有类似性质的多个蛋白质形成的亚单位;确定单元,其被构造成确定所述亚单位中包括的蛋白质的蛋白质属性信息是否存在于标识蛋白质属性的一组蛋白质属性信息中;创建单元,其被构造成通过对与由所述确定单元确定的蛋白质属性信息的存在或不存在有关的信息进行聚合,来创建标识针对每一条所述蛋白质属性信息的亚单位的属性的亚单位属性信息;生成单元,其被构造成生成包括与所述亚单位属性信息的存在或不存在有关的信息和标识针对每一条所述复合体对信息的所述相互作用的相互作用属性信息的学习数据,以覆盖由引起所述相互作用的蛋白复合体中的亚单位和接收所述相互作用的蛋白复合体中的亚单位的组合所形成的所有亚单位对;以及预测规则提取单元,其被构造成从将所述亚单位属性信息定义为条件并将所述相互作用属性信息定义为结论的多个规则构成的规则集中,提取应用于预测目标复合体对信息的预测规则,所述预测目标复合体对信息表示这样的预测目标蛋白复合体对,即,该预测目标蛋白复合体对中的受所述相互作用影响的亚单位对是未知的,或者该预测目标蛋白复合体对的相互作用是未知的,所述多个规则是从所述学习数据的集合中获得的。
11.一种用于对多个蛋白复合体之间的相互作用进行评估的设备,该设备包括获取单元,其被构造成获取表示受相互作用影响的蛋白复合体对的复合体对信息;标识单元,其被构造成基于其中对表示蛋白质的性质的多个家族进行了分组的家族列表,从所述家族列表中的所述多个家族中,标识出作为表示每一个所述蛋白质的性质的代表性家族的排他家族;以及分组单元,其被构造成将形成所述复合体对信息中的蛋白复合体的蛋白质分组成多个亚单位,每一个所述亚单位都包括具有公共排他家族的蛋白质。
全文摘要
本发明提供了用于评估蛋白复合体之间的相互作用的方法和设备。在相互作用评估设备中,亚单位形成单元使用复合体对信息作为输入信息并查询家族DB,以得到复合体对信息的亚单位。GODB是存储与蛋白质属性有关的信息的数据库。学习单元使用亚单位复合体对信息作为输入信息并查询GODB,以输出预测规则集。执行单元使用从预测目标生成单元获得的预测目标数据作为输入信息并查询预测规则集,以计算执行结果,即,作为对亚单位对的相互作用属性的有效性评估的属性得分。
文档编号G06F19/00GK101082942SQ20061013669
公开日2007年12月5日 申请日期2006年10月31日 优先权日2006年5月30日
发明者山川宏, 丸桥弘治, 仲尾由雄 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1