蛋白质立体结构的预测装置及其预测方法

文档序号:6432948阅读:403来源:国知局

专利名称::蛋白质立体结构的预测装置及其预测方法
技术领域
:本发明涉及蛋白质立体结构的预测装置及其预测方法,特别是涉及基于氨基酸序列来预测由所述氨基酸构成的蛋白质的立体结构的预测装置及其预测方法。
背景技术
:蛋白质是由20种氨基酸以肽键结合而成的多肽。在生物体等中,一般情况下多肽以巧妙的形式折叠,氨基酸排列成直链状的多肽发生折叠,从而形成蛋白质的复杂立体结构。这里,把形成直链状的多肽的氨基酸序列称为蛋白质的一级序列。蛋白质的一级序列表示的是哪些氨基酸按什么顺序以肽键结合,由蛋白质的一级序列可以确定构成蛋白质的氨基酸残基的种类和排列方式。而且,在多肽链中,彼此接近的氨基酸残基以氢键的形式形成某种稳定结构,这种结构被称为二级结构,所述的二级结构包括α螺旋、β折叠和转角。下面,将参考附图来说明二级结构。图31是表示α螺旋的图,图32是表示β折叠的图。如图31所示,由于α螺旋(1a,1b)具有螺旋结构,因而称为α螺旋。如图32所示,由于β折叠是由两条或多于两条的被称为β链(β-strand)(2a,2b)的链排列成片状(纸或面)形状,因此称为β折叠。连接α螺旋或β折叠的部分被称为转角。在图31的例子中,转角3连接着α螺旋1a和α螺旋1b。在图32的例子中,转角3连接着β折叠2a和β折叠2b。而且,当这些二级结构复杂地组合在一起时,整个多肽发生折叠,最后完成该蛋白质固有的整体结构。将该结构称为三级结构(下文中称之为立体结构)。因此,局部的二级结构如α螺旋和β折叠通过转角连接,并在所述转角处弯曲,形成各种立体结构。在图31的例子中,α螺旋1a和α螺旋1b通过转角3连接,通过弯曲180度,形成反向平行排列的结构。顺便说一下,蛋白质的立体结构与该蛋白质能否表达其功能有着密切的关系。因此,为了理解各蛋白质的功能,获知蛋白质的立体结构是非常重要的。因此,在蛋白质的应用和研究领域例如药理学或生物化学领域中,已经采用X射线衍射和NMR(核磁共振)技术对蛋白质的立体结构进行分析。但是,这些分析技术存在需要大量的时间和费用的问题。另一方面,随着这种分析技术的进步,已经测定了许多立体结构,结果,发现了一些结构相似的蛋白质,因此,也已经研究出根据目前已知的立体结构信息来预测蛋白质的立体结构的多种方法。在这种情况下,现在,被称为同源性建模(homologymodeling)的方法特别受到关注。例如,参见Lee,R.发表的“ProteinmodelBuildingusingStructuralHomology”,(Nature356,1992年,第543~544页)。该同源性建模法以如果一级序列相似则立体结构也相似为前提进行分析。在登记有立体结构已知的蛋白质的立体结构数据库中进行检索;如果进行结构预测的蛋白质的氨基酸的一级序列与立体结构已知的蛋白质的氨基酸序列具有相似性,则取得其立体结构;使用基于该立体结构建立模型,同时预测目标氨基酸序列的立体结构。但是,用现有的同源性建模法预测蛋白质的立体结构的技术所存在的问题是如果蛋白质不具有与立体结构已知的蛋白质相似的氨基酸序列,则不能对该蛋白质的立体结构进行预测。如上所述,同源性建模法中,基于以下的考虑当氨基酸序列相似时可预测其立体结构也相似,由此对立体结构未知的蛋白质的立体结构进行预测。因此,如果不存在氨基酸序列相似的立体结构已知的蛋白质,则不能对蛋白质的立体结构进行预测。例如,发现新的氨基酸序列时,不可能预测具有这种新氨基酸序列的蛋白质的立体结构。近年来,预测蛋白质的二级结构的预测精度已比以前有所改善。当基于二级结构的预测结果来预测立体结构时,可根据该结构来确定α螺旋和β链。但是,如上所述,当从β链转变成β折叠时,或者将α螺旋和α螺旋连接时,或者连接α螺旋和β折叠时,在连接部分必须采用被称为转角的结构。可是,由于关于转角的定义自由度很高,极难确定转角。因此,用于预测蛋白质的立体结构的现有建模程序尚不能确定转角、再现其结构。
发明内容本发明是鉴于上述问题而提出的。本发明的目的是提供一种通过确定转角来预测蛋白质的立体结构的蛋白质立体结构的预测装置及其预测方法。为了解决上述问题,本发明提供了如图1所示的蛋白质立体结构预测装置。在本发明的蛋白质立体结构的预测装置中,读入作为蛋白质的一级序列的氨基酸序列,将该氨基酸序列和基于该氨基酸序列所预测的局部二级结构信息输入立体结构预测单元200。在立体结构预测单元200中,转角形成部分计算单元210基于所述二级结构信息提取形成转角的氨基酸序列,计算包含在该氨基酸序列中的氨基酸的个数,将该个数和二级结构信息一起传送给转角预测单元220。转角预测单元220取得转角结构信息,并根据所述的转角结构信息再现转角部分,所述转角结构信息是与根据算出的构成转角的氨基酸的个数和二级结构信息得到的存在概率高的转角有关的转角结构信息。已发现对于转角的结构,可以根据二级结构和构成转角的氨基酸的个数,分类为几种模式,所述转角结构信息是与按该分类得到的存在概率高的转角的结构有关的信息。因此,可以使用转角结构信息,再现存在概率高的转角。立体结构再现单元240通过使用所再现的转角部分,再现蛋白质的整体立体结构,生成既定形式的再现信息。此外,为了解决上述问题,本发明提供了如下的蛋白质立体结构的预测方法根据二级结构信息和形成转角的氨基酸的个数,预先取得从立体结构已知的蛋白质的立体结构信息中提取的有关存在概率高的转角的转角结构信息,并将其存储在既定的存储单元中;获取所需的蛋白质的氨基酸序列及其二级结构信息,根据二级结构信息计算形成转角的氨基酸的个数;基于二级结构信息和形成转角的氨基酸的个数,检索转角结构信息,提取对应的所述转角结构信息;基于所提取的转角结构信息,再现转角部分,使用所再现的转角部分,生成再现蛋白质的整体立体结构的再现信息。通过结合表示本发明的示例的优选实施方式的附图进行的下述说明,本发明的上述及其他目的、特征和优点将更加清楚。图1是本发明的一个实施方式的蛋白质立体结构预测装置的方框图。图2是多肽的示意图。图3是决定蛋白质立体结构的参数的示意图。图4是氨基酸序列及其二级结构信息的例子。图5是转角结构信息的例子。图6是登记在转角结构信息中的二面角模式的例子。图7是本发明的一个实施方式的预测蛋白质立体结构的全部过程的流程图。图8是转角再现处理过程的流程图。图9是β链结构的转角再现处理过程的流程图。图10是由本发明的实施方式的蛋白质立体结构预测装置及其预测方法来显示蛋白质的立体结构的例子。图11是本发明的另一实施方式的转角再现处理过程的流程图。图12是本发明的蛋白质立体结构分析中所用的转角类型的分类。图13是β链180度转角中的第一位残基的拉氏图(Ramachandran图)。图14是β链180度转角中的第二位残基的拉氏图。图15是β链180度转角中的第一位残基的角度φ和ψ的角度分布图。图16是β链180度转角中的第二位残基的角度φ和ψ的角度分布图。图17表示通过立体结构分析得到的β链180度转角中具有代表性的二面角φ和ψ的角度和转角方向的结果。图18是β链180度转角的第一种立体结构的显示例。图19是β链180度转角的第二种立体结构的显示例。图20是90度转角中第一位残基的φ和ψ的角度分布图。图21表示通过立体结构分析所得到的β链90度转角中具有代表性的二面角φ和ψ的角度和转角方向的结果。图22是β链90度转角的第一种立体结构的显示例。图23是β链90度转角的第二种立体结构的显示例。图24是β链60度转角中第一位残基的φ和ψ的角度分布图。图25是表示通过立体结构分析所得到的β链60转角中存在概率高的φ和ψ的角度的图。图26是β链60度转角的第一种立体结构的显示例。图27是β链60度转角的第二种立体结构的显示例。图28是通过立体结构分析得到的直链模型中存在概率高的φ和ψ的角度。图29是α螺旋结构的转角的第一种立体结构的显示例。图30是α螺旋结构的转角的第二种立体结构的显示例。图31是α螺旋的示意图。图32是β折叠的示意图。具体实施例方式以下,将参考附图对本发明的实施方式进行说明。图1是本发明的一个实施方式的蛋白质立体结构预测装置的方框图。本发明的蛋白质立体结构预测装置包括氨基酸序列读入单元110,该单元用于读入作为蛋白质的一级序列的蛋白质的氨基酸序列;氨基酸序列数据库(以下称为氨基酸序列DB)120,该数据库用于存储氨基酸序列;二级结构预测单元130,该单元用于根据作为一级序列的氨基酸序列来预测二级结构;蛋白质二级结构数据库(以下称为蛋白质二级结构DB)140,该数据库用于存储有关构成蛋白质的二级结构的信息;立体结构预测单元200,该单元用于预测蛋白质的立体结构;以及显示单元310,该单元用于显示再现的立体结构。氨基酸序列读入单元110从氨基酸序列数据库120等中读入作为构成蛋白质的氨基酸的一级序列的氨基酸序列。此处,氨基酸序列的读入方式不受特别的限制。例如,有从通过通信网络连接的氨基酸序列数据库120下载所需的氨基酸序列的方法等。当然,使用者也可从如键盘等输入装置输入氨基酸序列,或者读入预先记录在软盘等记录介质内的氨基酸序列。氨基酸序列数据库120是登记和管理蛋白质的氨基酸序列的数据库。可通过用关键字等进行检索,获取所需的氨基酸序列信息。氨基酸序列DB120既可以安装在装置内,也可以通过通信线路等设置在外部。此外,所述的氨基酸序列DB120也可以是存储并管理所登记的氨基酸序列的公共机构等的数据库。二级结构预测单元130获取二级结构信息,该二级结构信息是与由氨基酸序列读入单元110读入的氨基酸序列对应的二级结构的预测结果。例如,二级结构预测单元130对登记了蛋白质二级结构的蛋白质二级结构DB140进行检索,读出与一级序列对应的二级结构信息。或者,二级结构预测单元130也可利用Garnier-Robson法等方法来预测二级结构,生成二级结构信息。将二级结构信息与氨基酸序列信息一起传送给立体结构预测单元200。蛋白质二级结构DB140是记录有对蛋白质二级结构进行预测所得到的二级结构信息的数据库。可通过用关键字等进行检索,获得所需的蛋白质的二级结构信息。与所述氨基酸序列DB120相同,蛋白质二级结构DB140可以以任意形态存在。立体结构预测单元200具有根据所述氨基酸序列信息和二级结构信息来预测蛋白质的立体结构的功能,并生成用来再现所预测的立体结构的再现信息。以适于利用再现信息的对象的任意方式,输出再现信息。例如,在输出到显示单元310的情况下,以用来显示所再现的立体结构的坐标等显示形式输出。此外,在用作分子动力学模拟或根据分子轨道法的分子行为模拟中的输入结构时,以适于所用的模拟软件的形式输出所述再现信息。关于立体结构的预测处理将在后面叙述。显示单元310根据再现信息以三维形式显示蛋白质的立体结构。这里,在详细说明立体结构预测单元200之前,参考附图,说明蛋白质的显示以及决定蛋白质立体结构的参数。图2是多肽的示意图,图3是决定蛋白质立体结构的参数的示意图。氨基酸是羧基(-COOH)和氨基(-NH2)结合到一个碳原子Cα上而成的。如图2所示,把从氨基和羧基中脱去水可得到的(-CO-NH-)键称为肽键。多肽是由大量的氨基酸通过肽键连接而成的。R称为侧链,除侧链R之外的其他部分称为主链。在以下的表示蛋白质的立体结构的附图中,图2所示的多肽的主链部分用带形或绳形等表示。此外,在β链中,用箭头表示从N末端至C末端的方向。顺便说一句,构成多肽的主链的六个原子均存在于如图3所示的同一平面上。因此,蛋白质的立体结构是由每个氨基酸中N-Cα和Cα-O这两个键的角度决定的。这两个二面角分别被称为φ和ψ。返回图1,对立体结构预测单元200进行说明。立体结构预测单元200包括转角形成部分计算单元210,该单元用来计算形成转角的氨基酸的个数;转角预测单元220,该单元包括作为用来对二面角φ和ψ赋值的二面角赋值单元的φ-ψ赋值单元221和用来计算转角方向的转角方向计算单元222;转角信息数据库(以下称为转角信息DB)230,该数据库中记录了有关转角结构的转角信息;以及立体结构再现单元240,该单元用来再现立体结构。转角形成部分计算单元210基于二级结构,提取形成转角的转角形成部分的氨基酸序列,计算它的氨基酸的个数(下文中称作残基数)。转角预测单元220基于由转角形成部分计算单元210算出的形成转角的残基数和二级结构信息,再现所述转角。转角预测单元220中的φ-ψ赋值单元221,根据转角形成部分计算单元210算出的残基数获取转角结构信息后,基于所获得的转角结构信息为二面角φ和ψ赋值,所述转角结构信息是关于登记在转角数据库230中的存在概率高的转角的结构的信息。转角预测单元220中的转角方向计算单元222,从转角信息数据库230中检索根据转角和夹着转角的二级结构所确定的转角方向,根据其确定转角方向。下文中,将所述转角方向表示为右转角或左转角。左转角是指如下的转角当转角的首位残基的Cα的侧链相对于肽链的伸展方向为90度方向时,该侧链相对于转角的末位残基的Cα为270度方向。而右转角是指如下的转角当转角的首位残基的Cα的侧链相对于肽链的伸展方向为90度方向时,该侧链相对于转角的末位残基的Cα为90度方向。在转角信息DB230中,将与根据二级结构和形成转角的氨基酸的个数得到的存在概率高的转角结构有关的转角结构信息,与二级结构和形成转角的残基个数相关联进行存储。如上文所述,多肽的结构是由每个氨基酸中的两个参数(φ和ψ)决定的。本发明的发明人通过分析结构已知的蛋白质的立体结构,针对出现在β链之间的转角,对每个形成转角的残基数确定了存在概率高的φ和ψ的角度。此外,本发明人还发现,可根据在转角之前的形成β链的残基数是偶数或是奇数,把转角方向分别分类为左转角或右转角。此外,本发明人还发现,当使α螺旋形成转角时,根据插入在α螺旋和α螺旋之间的转角部分的残基数是偶数或是奇数,可把转角部分分别分类为朝向相反方向的180度转角或朝向相同方向的转角。因此,基于上述发现,可生成与根据二级结构和形成转角的残基数得到的存在概率高的转角的结构有关的转角结构信息(φ和ψ、转角方向等)。由于所述转角结构信息可通过分析结构已知的蛋白质得到,所以优选预先生成转角结构信息,将其登记到数据库内。在转角信息DB230中,保存并管理着该转角结构信息。立体结构再现单元240基于再现的转角和二级结构信息,再现蛋白质的立体结构,并生成既定形式的再现信息。以适于利用再现信息的对象的任意形式,输出再现信息。在这种情况下,由于是显示单元310,生成采用三维坐标表示立体结构的再现信息。以下,将对具有上述构成的蛋白质立体结构预测装置的操作进行说明。氨基酸序列读入单元110从记录和保存氨基酸序列的氨基酸序列DB120中读入需要预测立体结构的蛋白质的氨基酸序列,将其发送到后面的二级结构预测单元130。二级结构预测单元130检索所读入的氨基酸序列的二级结构是否存储在蛋白质二级结构DB140中,当存储在蛋白质二级结构DB140中时,将其读入。此外,当未存储在蛋白质二级结构DB140中时,或者在必要的情况下,可采用Garnier-Robson法等方法来预测二级结构。将关于二级结构的二级结构信息发送到立体结构预测单元200。以下将对存储在氨基酸序列DB120内的氨基酸序列以及存储在蛋白质二级结构DB140内的二级结构信息的具体例子进行说明。图4是氨基酸序列及其二级结构的例子。尽管图4的例子是PDB形式,但是也可以是将一级序列和二级结构并列记载的并列形式等其他形式。氨基酸序列121表示氨基酸的序列,每个字母符号表示一种氨基酸。此外,二级结构信息141表示氨基酸序列121的二级结构,“螺旋”(HELIX)表示α螺旋在氨基酸序列121中出现的位置,“折叠”(SHEET)表示β折叠在氨基酸序列121中出现的位置,“转角”(TURN)表示转角在在氨基酸序列121中出现的位置。在立体结构预测单元200中,转角形成部分计算单元210计算形成转角的转角形成部分的残基数,转角预测单元220利用转角的残基数和二级结构信息来再现转角。在转角信息DB230中,预先登记有与根据二级结构和残基数得到的存在概率高的转角的结构有关的转角结构信息。图5是转角结构信息的例子,图6是登记在转角结构信息中的二面角的模式的一个例子。如图5所示,转角结构信息对于出现转角的每个位置,登记了有关转角形成的二面角(φ和ψ)和转角方向的规定等。下文中,将出现在β链和β链之间的转角称为β链结构的转角,将出现在α螺旋和α螺旋之间的转角称为α螺旋结构的转角。对于二面角来说,可根据形成转角的残基数规定可选择的模式。本发明的实施方式中,对于在β链结构的转角弯曲180度形成180度转角的残基数,登记了通过下述的立体结构分析得到的φ和ψ。模式1和2是由2个残基构成的180度转角中存在概率最高的φ和ψ的值。模式3、4和5是由3个残基构成的180度转角(各残基之间为90度转角)中存在概率最高的φ和ψ的值。同样,模式6是由4个残基构成的180度转角(各残基之间为60度转角)中存在概率最高的φ和ψ的值。另外,对于由3个或多于3个的残基构成的转角,也可考虑下述的模型通过形成转角的首位残基和末位残基,使β链和β链形成180度转角,并使形成转角的中间的残基连接成直链状。下文中,将这样的转角称为直链模型。模式7和8是由所述直链模型构成的180度转角中存在概率最高的φ和ψ的值。另外,按照规定,不管形成转角的残基数是多少,α螺旋结构的转角的二面角具有既定的φ和ψ(模式9)。例如,以图6所示的方式分别登记各模式的φ和ψ值。另一方面,按照规定,对于转角方向而言,当在转角之前即到转角的β链的残基数为奇数时,β链结构的转角为左转角,当在转角之前即到转角为止的β链的残基数为偶数时,β链结构的转角为右转角。还规定,对于α螺旋结构的转角而言,当形成转角的残基数为奇数时,形成使α螺旋与α螺旋朝向相反方向的转角,当形成转角的残基数为偶数时,形成使α螺旋与α螺旋朝向相同方向的转角。如上所述,可基于二级结构信息,从所述转角结构信息中提取有关二面角和转角方向规定的信息。另外,尽管图中没有显示,但对于出现在α螺旋与β链之间的转角等,同样也登记了转角结构信息。转角预测单元220中的φ-ψ赋值单元221,根据二级结构信息和残基数检索转角信息DB230,获得存在概率高的二面角。接着,转角方向计算单元222同样也根据二级结构信息和残基数检索转角信息DB230,确定转角方向。例如,对于β链结构的转角而言,根据转角的残基数来确定φ和ψ,根据在转角之前的β链的残基数来区分左转角或右转角。另外,对于α螺旋结构的转角而言,φ和ψ是既定的,当形成转角的残基数为奇数时,α螺旋为朝向相反方向的转角(即180度转角),当形成转角的残基数为偶数时,α螺旋为朝向相同方向的转角。对于在α螺旋与β折叠之间的转角,以同样的步骤确定φ和ψ以及转角方向。由此,基于转角信息DB230中的信息,可确定各转角的结构。立体结构再现单元240基于二级结构信息和所确定的转角,再现立体结构,并生成既定形式的再现信息。如上所述,可通过再现转角来预测蛋白质的立体结构。特别是,与同源性建模法不同,可预测结构未知的蛋白质的立体结构。可将预测得到的立体结构用作分子动力学模拟或根据分子轨道法的分子行为模拟的输入结构。下面,将对本发明的蛋白质立体结构预测方法进行说明。图7是本发明的一个实施方式的预测蛋白质立体结构的整个过程的流程图。与图1相同的部分标注相同的标号,并省略其说明。首先,从氨基酸序列DB120读入作为一级序列的氨基酸序列,例如读入图4所示的氨基酸序列121。接着,检查在二级结构DB140中是否存在该氨基酸序列的二级结构信息。如果存在,则将处理推进到步骤S03;如果不存在,则将处理推进到步骤S04。在蛋白质二级结构DB140中存在二级结构信息的情况下,从该数据库中读入有关该蛋白质的二级结构的信息,例如读入图4所示的二级结构信息141。在不存在二级结构信息的情况下,通过Garnier-Robson法等方法,预测该蛋白质的二级结构,并生成二级结构信息。基于该信息,生成α螺旋的结构信息。进而,同样生成β链的结构信息。通过上述处理,生成最终再现α螺旋和β链的立体结构时必需的三维坐标信息。为了生成α螺旋和β链的三维坐标信息,可适当采用公知的处理过程。接着,基于二级结构信息,进行转角的再现处理。下文将对转角的再现处理的详细情况进行说明,通过转角的再现处理,生成再现立体结构时必需的三维坐标信息。通过执行上述的过程,生成α螺旋结构、β链结构和转角结构的三维坐标信息,从而输出对应于这些信息的立体结构信息400。下面将对转角的再现处理进行说明。图8是表示转角再现处理过程的流程图。与图1相同的部分标注相同的标号,并省略其说明。在生成或读入所需的蛋白质的二级结构信息后,启动转角再现处理。基于二级结构信息,计算由几个氨基酸形成转角。由此,计算形成转角的残基数。接着,检查出现转角的结构。在β链结构的转角的情况下,将处理推进到步骤S703。在α螺旋结构的转角的情况下,将处理推进到步骤S705。在其他结构的转角的情况下,也同样进行分支处理,此处省略其说明。在β链结构的转角的情况下,根据步骤S701中算出的形成转角的残基数,从检索转角信息DB230检索φ和ψ,赋予所选择的模式的φ和ψ。例如,图4中所示的二级结构信息141的β折叠(62-67)与β折叠(70-75)之间的转角(68,69)的残基数为2,所以检索与转角结构信息的残基数2对应的φ和ψ。这里,括号内的数字表示二级结构信息141中记载的氨基酸的位置。在步骤S703之后,基于二级结构信息计算在转角之前的β链的残基数,并基于算出的残基数检索转角信息DB230,确定转角的方向。例如,在步骤S703的例子的情况下,由于β折叠(62-67)的残基数为偶数,所以确定为右转角。此外,因为可以根据β链的残基数是偶数还是奇数来确定所述转角方向是左转角还是右转角,所以也可通过程序而不使用转角信息DB230来区分所述转角方向。由于通过步骤S703和S704,就确定了β链结构中的二面角和转角方向,因此将处理推进到步骤S706。在α螺旋结构的转角的情况下,基于步骤S701算出的形成该转角的残基数,检索转角信息DB230,来确定转角的方向。例如,在图4所示的二级结构信息141的情况下,由于α螺旋(2-28)与α螺旋(33-54)之间的转角(29-32)的残基数为偶数,所以确定α螺旋(2-28)与α螺旋(33-54)为相同方向排列。另外,从转角信息DB230中提取相应的φ和ψ。与β链相同,因为可以根据转角的残基数是偶数还是奇数,来确定转角的方向是同向还是反向,所以也可通过程序而不使用转角信息DB230来确定所述转角方向。这样,就确定了β链结构的转角的二面角和转角方向,因而将处理推进到步骤S706。基于由上述处理所得到的φ和ψ的值以及转角方向,向三维坐标(立体结构)的各原子赋值,赋予转角结构以三维坐标。生成符合既定输出形式的三维坐标信息,输出被赋予三维坐标的转角结构。这里,将更详细地说明步骤S703中β链结构的转角的φ和ψ的赋值处理过程。图9是β链结构的转角的再现处理过程的流程图。当检测到转角是β链结构时,启动处理。判断是否需要以直链模型来预测转角。例如,预先设定在形成转角的残基数超过5时使用直链模型等的条件,并依据该条件进行判断。在不使用直链模型的情况下,将处理推进到步骤S7032,在使用直链模型的情况下,将处理推进到步骤S7033。在不使用直链模型的情况下,根据形成转角的残基数来选择已登记在转角信息DB中的模式,并赋予该模式下的φ和ψ,完成处理。在使用直链模型的情况下,判断形成转角的残基数是否为奇数。当该残基数为奇数时,执行步骤S7034;如该残基数为偶数,则不执行步骤S7034。当形成所述转角的残基数为奇数时,在所述残基数上加1。这是因为形成转角的残基数按锯齿状排列,因而当该残基数为奇数时,不能采用直链结构。将模式7或8中登记的φ和ψ赋予给形成转角的首位残基和末位残基。对除了首位残基和末位残基以外的位于中间的其他残基,赋予可以将这些残基配置成直链状的φ和ψ。根据这样的处理,无论β链结构的转角由多少残基形成,都可以预测转角结构。基于由以上过程生成的三维坐标信息,在显示单元310上显示蛋白质的立体结构。图10是由本发明的实施方式的蛋白质立体结构预测装置及其预测方法来显示蛋白质的立体结构的例子。与前文说明的附图一样,图10中,用箭头表示的部分是β链,用螺旋表示的部分是α螺旋,连接β链和α螺旋的部分为转角。这样,通过参照转角结构信息来确定φ和ψ,并预测存在概率高的转角,可再现以往自由度高而难以确定的转角。在本发明的蛋白质立体结构预测方法中,根据二级结构信息和登记了根据二级结构所确定的转角结构的转角结构信息,来预测转角结构。因此,可对具有立体结构未知的氨基酸序列的蛋白质的立体结构进行预测。在上述说明中,每当在氨基酸序列中出现转角时,对转角的结构进行分析,但是,也可以针对每种类型再现转角。图11是表示本发明的另一实施方式的转角再现处理过程的流程图。与图8的情形一样,在生成二级结构信息后,启动处理。从已读入的二级结构信息中,提取β链结构的转角中由2个残基形成的转角,从转角信息DB230中检索对应于所提取的转角的φ和ψ,根据在转角之前的β链的残基数,进行确定转角方向的处理。从已读入的二级结构信息中,提取β链结构的转角中由3个残基形成的转角,从转角信息DB230中检索对应于所提取的转角的φ和ψ,根据在转角之前的β链的残基数,进行确定转角方向的处理。从已读入的二级结构信息中,提取β链结构的转角中由4个残基形成的转角,从转角信息DB230中检索对应于所提取的转角的φ和ψ,根据在转角之前的β链的残基数,进行确定转角方向的处理。从已读入的二级结构信息中,提取α螺旋结构的转角部分,从转角信息DB230中检索对应于所提取的转角的φ和ψ,根据转角的残基数,进行确定转角方向的处理。通过这样的处理过程,也可以预测转角结构。这里,为了简化说明起见,省略了使用直链模型的处理,但是,例如,可以作为残基数为5或大于5的情况的处理,在步骤S713与S714之间追加使用直链模型的处理。此外,通过对立体结构已知的蛋白质进行立体结构分析,可得到登记在如上说明的转角信息DB230中的转角结构信息。特别是,本发明人已经成功地通过立体结构分析,发现了以往因自由度高而难以确定的、在β链和β链之间出现的β链结构的转角的二面角和转角方向以及在α螺旋和α螺旋之间出现的α螺旋结构的转角方向的确定方法。这里,将对由本发明的发明人实施的立体结构已知的蛋白质的立体结构分析进行说明。首先说明β链结构的转角,然后再说明α螺旋结构的转角。β链结构的转角中,例如,在从β链向β折叠转变时,以180度的转角发生折叠。在这种情况下,转角至少需要2个氨基酸残基。图12是本发明的蛋白质立体结构分析中所用的转角类型的分类。(A)表示的是由2个残基形成转角的类型;(B)表示的是由3个残基形成转角的类型;(C)表示的是由4个残基形成转角的类型。图中,用tn(n=1,2,…)表示构成转角的残基。该图是仅用于说明转角的分类的图,不表示实际的结构。由于通常的转角多是由这个范围的残基数形成,因此如果对由2、3和4个残基进行立体结构分析来导出存在概率高的φ和ψ,则可以预测β链结构的大部分的转角结构。此外,如上所述,可使用直链模型来预测由3个或多于3个残基形成的转角。该模型是在(A)所示的2残基转角的首位残基t1和末位残基t2之间,残基以直链状连接的模型。下文将对本发明的发明人针对各种情况实施的立体结构分析进行说明。为了进行立体结构分析,首先,从登记和管理蛋白质的立体结构数据的蛋白质立体结构DB,例如,由美国PDB运营集团RCSB(ResearchCollaboratoryforStructualBioinfomatics)运营的PDB(ProteinDataBank)中,使用关键字“porin”(孔蛋白)检索富含具有β链结构的β链的蛋白质。经由因特网等访问PDB站点,对所需的数据进行了检索。这样,以“porin”为关键词进行检索,得到了138例检索结果。随后,对各种类型的转角进行分析。由图12可知,(A)中由2个残基进行180度转角。以下将这种类型的转角称为β链180度转角。(B)中由3个残基进行180度转角,即每个残基进行90度转角。下文中,将这种类型的转角称为β链90度转角。在(C)中,由4个残基进行180度转角,即每个残基进行60度转角。下文中,将这种类型的转角称为β链60度转角。以下对由2个残基构成的180度转角的情况进行说明。在(A)的2个残基的(β链180度)转角的情况下,从上述检索结果中,对实际由2个残基进行180度转角的部分进行了检索。在进行检索时,例如,通过使用ProteinAdviserforWin(FQS)来查找结构,通过使用免费软件DSSP来查找φ和ψ。这样,检索到59例由2个残基进行180度转角的部分。随后,根据这59例的φ和ψ的角度,绘制拉氏图。在该拉氏图中,在横轴为φ、纵轴为ψ的平面上,绘制了各个氨基酸的二面角数据。实际的蛋白质由于存在空间位阻,二面角的允许范围受到限制。通过绘制拉氏图,可以获知该允许范围。图13是β链180度转角中第一位残基的拉氏图。而图14是β链180度转角中的第二位残基的拉氏图。这些图中,在横轴为φ、纵轴为ψ的平面上,绘制了检索到的59例转角的第一位残基和第二位残基的氨基酸的φ和ψ的角度数据。可以看出这样得到的图中数据集中在特定的区域。在实际的立体结构中,可以采用该区域的φ和ψ的组合。为了使角度φ和ψ的分布更清晰,绘制第一位残基和第二位残基的角度分布图。图15是β链180转角中的第一位残基的φ和ψ的角度分布图。分布图是如下的曲线图将从-180度至180度的范围以10度的宽度进行划分,示出其中所含的角度φ和ψ在整体设为1时的存在概率。从该分布图可以看出,构成β链180度转角的第一位残基的φ分布在-60度和80度附近。另一方面,可以看出,形成β链180度转角的第一位残基的ψ分布在-120度和120度附近。另外,图16是β链180转角中的第二位残基的φ和ψ的角度分布图。同样,可以看出,形成β链180度转角的第二位残基的φ分布在-90度和90度附近,ψ分布在0度附近。这样,根据这些分布图,可得到β链180度转角中存在概率高的φ和ψ的角度。图17表示通过立体结构分析得到的β链180度转角中具有代表性的二面角的角度以及转角方向的结果。结果A表示如下情况第一位残基的φ为-60.0度、ψ为120.0度,第二位残基的φ为90.0度、ψ为0.0度,在转角之前的β链的残基数为5而形成左转角。从图15和16可知,这样的角度φ和ψ的组合的存在概率高。另外,结果B表示如下情况φ和ψ的组合与结果A相同,但是在转角之前的β链的残基数为6而形成右转角。结果C表示如下情况第一位残基的φ为80.0度,ψ为-120.0度,第二位残基的φ为-90.0度,ψ为-10.0度附近,在转角之前的β链的残基数为5,形成左转角。结果D表示如下情况φ和ψ的组合与结果C相同,但是在转角之前的β链的残基数为6,形成右转角。此外,本发明的发明人通过分析这样得到得分析结果发现根据在转角之前的形成β链的残基数为奇数或偶数,可将β链和β链之间的转角分别分类为左转角或右转角。预先将由这样确定的φ和ψ的模式存储在转角信息DB230中,转角预测单元220检索转角信息DB230并读出这些模式,在再现转角时进行利用。以下,给出使用本发明的蛋白质立体结构预测装置,显示采用根据分析结果得到的存在概率高的二面角的立体结构的例子。图18是β链180度转角的第一种立体结构的显示例。它表示用图17所示的结果C的二面角和在转角之前的残基数数据表示的立体结构。用箭头表示的部分表示β链,连接该β链的部分表示转角。这是左转角的一个例子。同样,图19是β链180度转角的第二种立体结构的显示例。它表示用图17所示的结果D的二面角的数据和在转角之前的残基数数据表示的立体结构。尽管φ和ψ与图18相同,但图19中形成右转角。在作为转角结构信息登记在数据库中的情况下,通过使用采用了本发明的蛋白质立体结构预测方法的建模软件,来再现由分布图得到的φ和ψ的角度,并使用显示软件来实际确认转角。然后,对转角的角度进行微调,确定要登记的角度。以下,对由3个残基构成的90度转角的情况进行说明。对于(B)的β链90度转角的情况,从138个检索例中,检索实际由1个残基进行90度转角的部分。采用与(A)的β链180度转角情况下相同的方法,检索出365例由1个残基进行90度转角的部分。随后,基于这365例的φ和ψ的角度,绘制拉氏图。进而,为了明确φ和ψ的角度分布,绘制角度分布图。图20是90度转角中第一位残基的φ和ψ的角度分布图。该分布图的描绘方式与(A)的β链180转角的情况相同。根据该分布图可以知道,形成90度转角的第一位残基的φ分布在-60度~80度附近以及90度附近。另一方面,可以看出形成90度转角的第一位残基的ψ分布在-10度和130度附近。这样,根据所述的分布图,可得到90度转角中存在概率高的φ和ψ的角度。图21表示通过立体结构分析所得到的β链90度转角中具有代表性的二面角的角度和转角方向的结果。结果E表示如下情况第一位残基的φ为-59.9度,ψ为120.0度,转角之前的残基数为5,形成左转角。结果F表示如下情况第一位残基的φ为-79.9度,ψ为-10.1度,转角之前的β链的残基数为奇数5,形成左转角。而结果G表示如下情况第一位残基的φ为90.0度,ψ为-10.0度,转角之前的β链的残基数为6,形成右转角。下面,与上述的β链180度转角的情形相似,给出使用本发明的蛋白质立体结构预测装置来显示采用通过分析结果所得到的存在概率高的二面角的立体结构的例子。图22表示β链90度转角的第一种立体结构的显示例。它是示出采用了由结果E得到的φ和ψ的左转角的转角部分的显示画面的例子。而图23是β链90度转角的第二种立体结构的显示例。它是表示采用了由结果G得到的φ和ψ的右转角的转角部分的显示画面的例子。以下,对由4个残基构成的β链60度转角的情况进行说明。对于(C)的β链60度转角的情况,从138个检索例中,检索实际由1个残基进行60度转角的部分。采用与(A)的β链180度转角情况相同的方法,检索出273例由1个残基进行60度转角的部分。随后,基于这273例的φ和ψ的角度,绘制拉氏图。接着,为了明确φ和ψ的角度分布,绘制角度分布图。图24是β链60度转角中第一位残基的φ和ψ的角度分布图。该分布图的描绘方式与(A)的β链180转角的情况相同。根据该分布图可以知道,形成60度转角的第一位残基的φ分布在150度附近。另一方面,可以知道,形成60度转角的第一位残基的ψ分布在-75度附近。这样,由所述的分布图可得到60度转角中存在概率高的φ和ψ的角度。图25是通过立体结构分析得到的β链60度转角中存在概率高的φ和ψ的角度。结果H表示如下情况第一位残基的φ为-75.0度,ψ为150.0度,转角之前的残基数为奇数5,形成左转角。结果I表示如下情况φ和ψ的组合与模式1相同,转角之前的残基数为6,形成右转角。接着,示出用本发明的蛋白质立体结构预测装置来显示采用通过分析结果得到的存在概率高的二面角的立体结构的例子。图26是β链60度转角的第一种立体结构的显示例。它是采用由结果H得到的φ和ψ表示β链60度左转角的转角部分的显示画面的例子。另外,图27是β链60度转角的第二种立体结构的显示例。它是采用由结果I得到的φ和ψ表示β链60度右转角的转角部分的显示画面的例子。以下,对直链模型的情况进行说明。本发明的发明人采用与分析上述β链结构的转角结构相同的方式,进行了立体结构分析。在直链模型的情况下,与(A)的2残基180度转角的情况相同,转角由转角的首位残基(即2个残基情况下的t1)和末位残基(即2个残基情况下的t2)形成。而中间的残基以直链状配置。图28是由通过立体结构分析得到的直链模型中存在概率高的φ和ψ的角度。结果J表示如下情况第一位残基的φ为-60度,ψ为120.0度,第二位残基的φ为90.0度,ψ为0.0度,转角之前的β链的残基数为5,形成左转角。而结果K表示如下情况φ和ψ的组合与结果J相同,但转角之前的β链的残基数为6,形成右转角。结果L表示如下情况首位残基的φ为80.0度,ψ为-120.0度,末位残基的φ为-90.0度,ψ为-10.0度附近,转角之前的β链的残基数为5,形成左转角。结果M表示如下情况φ和ψ的组合与结果L相同,但转角之前的β链的残基数为6,形成右转角。以下,对α螺旋180度转角的情况进行说明。本发明的发明人采用与上述分析β链结构的转角结构相同的方式,进行α螺旋结构的180度转角的立体结构分析。结果发现,在使α螺旋形成180度转角时,通过在将要弯曲的第一个α螺旋与第二个α螺旋之间插入奇数或偶数个残基,可得到如下结果。当所述残基数为奇数时第一个α螺旋和第二个α螺旋朝向相反方向(即180度转角)。当所述残基数为偶数时第一个α螺旋和第二个α螺旋朝向相同方向。尽管实际的形成α螺旋中的转角的残基数可以是任何数,但是如果可以根据其关系来形成转角,则可以预测和再现α螺旋结构的转角结构。以下,示出使用利用这些规则进行预测的本发明的蛋白质立体结构预测装置来显示α螺旋结构的转角的例子。图29是α螺旋结构的转角的第一种立体结构的显示例。该图中示出了形成转角的残基数为奇数时的α螺旋和转角。由于残基数为奇数个,所以形成了α螺旋彼此朝向相反方向的180度转角。而图30是α螺旋结构的转角的第二种立体结构的显示例。该图中示出了形成转角的残基数为偶数时的α螺旋和转角。由于残基数为偶数个,所以形成了α螺旋彼此朝向相同方向的转角。在以上的说明中,对在转角信息DB230中登记的转角结构信息的模式的一个例子进行了说明,但是,本发明并不仅限于此。此外,在转角信息DB230中登记的转角结构信息中的模式是任意的,既可以预先登记多种模式,从中任意选择,也可以预先登记一种适当的模式,对其进行使用。另外,以上的处理功能可由计算机来实现。在这种情况下,可提供记载有蛋白质立体结构预测装置应具有的功能的处理内容的程序。通过用计算机运行该程序,可在计算机上实现上述的处理功能。可将记载有处理内容的程序预先存储在可由计算机读取的记录介质内。计算机可读取的的记录介质有磁记录装置、光盘、光磁记录介质或半导体存储器等。磁记录装置有硬盘装置(HDD)、软盘(FD)、磁带等。光盘有DVD(DigitalVersatileDisk;数字通用光盘)、DVD-RAM(RandomAccessMemory;随机存取存储器)、CD-ROM(CompactDiscReadonlyMemory光盘只读存储器)或CD-R(Recordable可记录式)/RW(ReWritable可擦写式)等。光磁记录介质有MO(Magneto-Optical;磁光盘)等。在使该程序在市场上流通的情况下,例如,可出售记录有该程序的移动记录介质,例如DVD或CD-ROM等。此外,可将程序预先存储在服务器计算机的存储装置内,通过网络将该程序从服务器计算机传输给其他计算机。运行程序的计算机把例如记录介质中记录的程序或从服务器计算机传输的程序,存储在自己的存储装置内。然后,计算机从自己的存储装置读取程序,根据该程序进行处理。另外,计算机也可直接从移动记录介质读取程序,根据该程序进行处理。此外,计算机也可以在每次从所述服务器计算机传输程序时,依据接收的程序逐次进行处理。如上所述,本发明的蛋白质立体结构预测装置读入作为蛋白质的一级序列的氨基酸序列,预测二级结构或从数据库获取二级结构,根据预测得到的二级结构计算形成转角的氨基酸的个数,取得根据二级结构和氨基酸的个数得到的存在概率高的转角结构,再现转角,并预测立体结构。这样,通过根据根据二级结构和形成转角的氨基酸的个数得到的存在概率高的转角结构预测转角,可再现以往自由度高而难以确定的转角。其结果,即使是具有结构未知的氨基酸序列的蛋白质,也可以预测其立体结构。此外,通过使计算机运行本发明的蛋白质立体结构预测程序,计算机读入蛋白质的氨基酸序列,获得二级结构信息。接着,根据二级结构信息计算形成转角的氨基酸的个数,根据二级结构信息和算出的氨基酸的个数,取得存在概率高的转角的转角结构信息,预测和再现转角,并预测蛋白质的立体结构。如上所述,根据通过二级结构所求出的形成转角的氨基酸的个数和二级结构,获得存在概率高的转角的转角结构信息,对转角进行预测。由此,可对以往因自由度高而难以确定的转角进行预测和再现。其结果,即使是具有结构未知的氨基酸序列的蛋白质,也可以预测其立体结构。以上内容仅仅表示本发明的原理。而且,本领域的技术人员可以进行大量的变形和变更,如上所述,本发明不限于说明过的正确构成和应用例,可认为所有相应的变形例和等价物均属于所附的权利要求及其等价物确定的本发明的范围之内。权利要求1.一种蛋白质立体结构的预测装置,该装置根据氨基酸序列来预测由所述氨基酸构成的蛋白质的立体结构,其特征在于,该装置具有转角形成部分计算单元,该单元根据作为所述蛋白质的一级序列读入的所述氨基酸序列和由所述氨基酸序列得到的局部的二级结构信息,计算形成转角的氨基酸的个数;转角预测单元,该单元根据所述局部二级结构信息和形成所述转角的所述氨基酸的个数,取得从立体结构已知的蛋白质的立体结构信息中提取的与存在概率高的转角有关的转角结构信息,根据所述转角结构信息再现转角部分;以及立体结构再现单元,该单元使用所再现的转角部分,生成再现所述蛋白质的立体结构的再现信息。2.如权利要求1所述的蛋白质立体结构的预测装置,其特征在于,所述转角预测单元具有转角信息存储单元,该单元将根据所述局部二级结构信息和所述氨基酸的个数预先从所述立体结构信息中提取的所述转角结构信息,与所述二级结构和形成所述转角的氨基酸的个数相关联进行存储;以及检索单元,该单元根据所述二级结构信息和形成所述转角的氨基酸的个数,检索所述转角信息存储单元,取得所述转角结构信息。3.如权利要求2所述的蛋白质立体结构的预测装置,其特征在于,所述转角信息存储单元根据二级结构之间出现所述转角的二级结构和形成所述转角的所述氨基酸的个数,预先从所述立体结构信息中提取形成存在概率高的肽平面的二面角,并存储该二面角;所述检索单元具有二面角赋值单元,该二面角赋值单元从所述转角信息存储单元,检索与二级结构信息和氨基酸的个数对应的所述二面角,并进行所述二面角的赋值。4.如权利要求3所述的蛋白质立体结构的预测装置,其特征在于,所述转角信息存储单元中存储着与所述氨基酸的个数对应的二面角,所述的二面角是当所述转角出现在β链和β链之间,并且通过形成使构成所述转角的所述氨基酸彼此成既定角度的转角来形成β链180度转角时存在概率高的二面角。5.如权利要求3所述的蛋白质立体结构的预测装置,其特征在于,所述转角信息存储单元存储着与所述氨基酸的个数对应的二面角,所述的二面角是在如下转角中存在概率高的二面角,所述转角出现在β链和β链之间,并且具有以下结构由构成所述转角的第一个氨基酸和最后一个氨基酸形成β链180度转角,除了所述第一个氨基酸和最后一个氨基酸之外的氨基酸以直链状连接。6.如权利要求1所述的蛋白质立体结构的预测装置,其特征在于,所述转角预测单元还包括转角方向计算单元,该转角方向计算单元根据所述二级结构以及在需要时根据形成所述转角的所述氨基酸的个数,来确定所述转角的方向。7.如权利要求6所述的蛋白质立体结构的预测装置,其特征在于,当所述转角出现在β链和β链之间时,所述转角方向计算单元根据到所述转角之间的β链是奇数个还是偶数个,来确定转角的方向。8.如权利要求6所述的蛋白质立体结构的预测装置,其特征在于,当所述转角出现在α螺旋和α螺旋之间时,所述转角方向计算单元根据形成所述转角的氨基酸是奇数个还是偶数个,来确定转角的方向。9.一种蛋白质立体结构的预测方法,该方法根据氨基酸序列来预测由所述氨基酸构成的蛋白质的立体结构,其特征在于,该方法包括以下步骤根据所述二级结构信息和形成所述转角的所述氨基酸的个数,预先取得与从立体结构已知的蛋白质的立体结构信息中提取的存在概率高的转角有关的转角结构信息,并将其存储在既定的存储单元内;取得作为所述蛋白质的一级序列的所述氨基酸序列和由所述氨基酸序列得到的所述局部二级结构信息;根据所述局部二级结构信息来计算形成转角的所述氨基酸的个数;根据所述局部二级结构信息和形成所述转角的氨基酸的个数来检索所述既定的存储单元的所述转角结构信息,提取对应的所述二级结构信息;以及使用基于所提取的所述转角结构信息所再现的转角部分,生成再现所述蛋白质的立体结构的再现信息。10.如权利要求9所述的蛋白质立体结构的预测方法,其特征在于,在所述提取转角结构信息的步骤中,根据所述局部二级结构信息来检索进行结构预测的所述蛋白质的转角部分,在检索到所述转角时,提取对应于所述转角的所述转角结构信息。11.如权利要求9所述的蛋白质立体结构的预测方法,其特征在于,在所述提取转角结构信息的步骤中,根据所述局部二级结构信息,从进行结构预测的所述蛋白质中,检索可应用根据所述局部二级结构信息和形成转角的氨基酸的个数所提取的所述转角结构信息的所述转角部分。12.一种程序,该程序用于由计算机根据氨基酸序列来预测由所述氨基酸构成的蛋白质的立体结构,其特征在于,所述程序使所述计算机具有以下单元的功能转角形成部分计算单元,该单元根据作为所述蛋白质的一级序列读入的所述氨基酸序列和由所述氨基酸序列得到的局部二级结构信息,计算形成转角的所述氨基酸的个数;转角预测单元,该单元根据所述局部二级结构信息和形成所述转角的所述氨基酸的个数,取得与从立体结构已知的蛋白质的立体结构信息中提取的存在概率高的转角有关的转角结构信息,并根据所述转角结构信息再现转角部分;以及立体结构再现单元,该单元通过使用所再现的转角部分,来生成再现所述蛋白质的立体结构的再现信息。13.一种计算机可读取的记录介质,该记录介质存储有用于由计算机根据氨基酸序列来预测由所述氨基酸构成的蛋白质的立体结构的程序,其特征在于,所述程序使所述计算机具有以下单元的功能转角形成部分计算单元,该单元根据作为所述蛋白质的一级序列读入的所述氨基酸序列、和由所述氨基酸序列得到的局部二级结构信息,计算形成转角的所述氨基酸的个数;转角预测单元,该单元根据所述局部二级结构信息和形成所述转角的所述氨基酸的个数,取得与从立体结构已知的蛋白质的立体结构信息中提取的存在概率高的转角有关的转角结构信息,根据所述转角结构信息再现转角部分;以及立体结构再现单元,该单元使用所再现的所述转角部分,生成再现所述蛋白质的立体结构的再现信息。全文摘要本发明提供通过再现转角来预测蛋白质的立体结构的蛋白质立体结构预测装置及其预测方法。氨基酸序列读入单元(110)读入作为一级序列的氨基酸序列,二级结构预测单元(130)预测其二级结构。在立体结构预测单元(200)中,转角信息计算单元(210)根据所预测的二级结构数据来计算形成转角的氨基酸的个数。将根据该二级结构和氨基酸的个数得到的有关存在概率高的转角结构的信息,存储在转角信息DB(230)内。转角预测单元(220)基于二级结构和所算出的氨基酸的个数来检索有关存在概率高的转角结构的信息。基于这些信息来再现所述转角。立体结构再现单元(240)使用所再现的转角,再现蛋白质的立体结构。文档编号G06F19/00GK1602487SQ0282459公开日2005年3月30日申请日期2002年12月10日优先权日2001年12月10日发明者酒井广太申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1