分子功能网络的生成方法

文档序号:6474522阅读:189来源:国知局
专利名称:分子功能网络的生成方法
技术领域
本发明是关于含有生物学事件信息的生物分子数据库的制作方法和使用方法。
近年来,基因组的发展十分迅猛,以人为主的多种生物物种的基因组序列得到解析,关于基因和基因产物-蛋白质的序列、每种脏器的蛋白质的表达、蛋白-蛋白相互作用等基因组范围内的系统研究不断深入。其大部分研究成果均以数据库的形式公开供全世界使用。关于基因和蛋白质的功能、疾病的原因以及背景基因的推测、基因多型性的关系等正在一点点阐明,人们对以遗传信息为基础的医疗和新药开发的期望不断升高。
一方面,遗传信息的载体是核酸,但能量代谢、物质交换、信号传导等生命功能等大多数是依靠核酸以外的分子执行。蛋白质和其它种类的分子不同,它是以基因设计图为基础而直接产生的,其种类很多。酶、小分子的生物体内生理活性化合物的靶标生物分子、蛋白质性质的生物体内生理活性化合物的靶标生物分子(多数进行了糖修饰)全部是蛋白质。疾病的根本原因,归根结底可以说多数疾病和症状是蛋白质和小分子化合物的量之间的平衡、由于情况不同导致的质(功能)的异常。大部分现行医药都是以蛋白质为靶标并对其功能进行调控的化合物。和蛋白质不同,由于核酸的立体结构决定了它很难作为小分子药物的靶标而发挥其特异性作用,因此抗生素和抗菌药或者农药的杀虫剂和抗霉剂的靶标都是蛋白质。
因此,为了对以遗传信息为基础的医疗和新药进行开发,必须阐明生物体内各种蛋白质和小分子化合物的功能和它们的分子间的特异性关系。而且,不同的酶渐次生物合成相关的必要分子,不同的分子渐次结合而传导信号,这些分子在功能和生物合成上存在直接或者间接的相互关联。这种关联(分子功能网络)信息十分重要。此外,到目前的研究为止,已经阐明了多种与各种临床症状、生理现象以及生物反应发生直接相关的介质和激素等分子,与分子功能网络的关系是适当的治疗不可缺的。此外,创新药物的战略要在考虑到副作用风险之同时设定恰当的靶标分子,因此必须考虑到含有靶标分子的分子功能网络。
蛋白质相关的数据库有SwissPort(the Swiss Institute ofBioinformatics,Europaen Bioinformatics Institute(EBI)、PIR(NationalBiomedical Research foundation(NBRF))。任何一个数据库除了含有序列信息之外,还提供生物种类、功能、功能机制、发现者、文献、其它注解信息。
着眼于分子关联的分子网络型的数据库有与代谢途径相关的有KEGG(金久等,京都大学)、Biochemical Pathways(BoehringerMannheim)、WIT(Russian Academy of Sciences)、Biofrontier(吴羽化学)、Protein Pathway(AxCell)、bioSCOUT(LION)、EcoCyc(DoubleTwist)、UM-BBD(Minnesota Univ)。
KEGG的PATHWAY数据库中有新陈代谢途径和信号传导途径,前者收集了物质代谢、能量代谢相关的一般小分子化合物的代谢途径,后者收集了信号传导体系的蛋白质。任何一种都以静态Gif的格式提供事先定义的分子网络。前者中,酶和配体的信息是从另外的文本形式分子数据库LIGAND(金久等,京都大学)和ENZYME(IUPAC-IUBMB)中收录的。不包括与生理活性肽的生成相关的酶和靶标生物分子。
EcoCyc是大肠杆菌物质代谢的数据库,是以每一个酶反应相关数据和已知途径相关数据(将属于这种途径的酶反应集中在一起进行表述)为基础、用图形的形式表示途径。EcoCyc的检索功能是提供根据与分子名和途径名称相对应的文字列和略号的检索方法。不能指定任意分子检索新的途径。
信号传导相关的数据库有CSNDB(国立医药食品卫生研究所,日本)、SPAD(久原等,九州大学)、Gene Net(Institute of Cytology & GeneticsNovosibrisk,Russia),GeNet(Maria G.Samsonova)。
蛋白-蛋白相互作用的数据库有DIP(UCLA)、PathCalling(CuraGen)、ProNet(Myriad)。
基因、蛋白表达数据库有BodyMap(东京大学、大阪大学)、SWIS8-2DPAGE(Swiss Institute of Bioinformatics),Human and mouse 2D PAGEdatabase(Danish Centre for Human Genome Research),HEART-2DPAGE(GermanHeart)、PDD Protein Disease Databases(NIMH-NCI),WashingtonUniversity Inner Ear Protein Database(Washington Univ.),PMMA-2DPAGE(Purkyne Military Medical Academy),Mito-Pick(CEA,France),MolecularAnatomy Laboratory(Indiana University),Human Colon Carcinoma ProteinDatabase(Ludwig Institute for Cancer Research)。
生物反应模拟型的分子网络数据库包括E-Cell(富田等,庆应大学)、e E.coli(B.Palsson)、Cell(D.Lauffenburger,MIT)、Virtual Cell(L.Leow,Conneticut Univ.)、Virtual patient(Entelos,Inc.)。
关于生物分子和功能的关系,除了SwissPort收集了广泛的蛋白信息之外,COPE(University of Munich)以文本的形式公开了细胞因子的功能信息。ARIS((股份)日本电子计算)以医学、药学领域为中心从大约400多家国内杂志和20家海外杂志中收录了与药品的副作用、相互作用、农药、化学物质导致的中毒相关的文献信息。但关于生物分子的生理作用和细胞水平以上的应答方面的数据库至今还没有。关于基因和疾病,OMIM(NIH)对遗传疾病和蛋白质的氨基酸变异信息进行了收集。任何信息都以文本形式的数据记述、用关键词进行检索。
着眼于分子间关联的已有数据库存在以下几点问题。分子网络型数据库是针对分子和分子间的关联已经清楚的体系制作的。可以事先考虑到分子间的关系进行配置,并用静态Gif等形式表现出来。可是,这种方式造成难以添加新的分子和分子间的关联的后果。如果将今后明确其存在的分子也包括在内大约有10万以上(在KEGG中收录的分子包括医药分子大约有1万)。而且一旦这些分子间的关系通过今后的研究查清楚,可以推想分子网络的复杂性正以加速度的状态增加。为了适应既能追加新分子又能够保持不断增多的分子之间关系的信息,人们需要能生成含有必要信息的部分分子网络的新方法。
2001年9月7日至今,KEGG将分子间的关联以2个分子成对信息的形式进行保存,使用该信息,能够探索代谢途径中的任意2个分子间的关联途径。可是,该途径探索方法存在的问题是随着关联2个分子间的途径的增长,计算时间也随着级数地增长。
另一个方面,文本形式的数据库中分子数据的追加没有界限。可是,从每个分子的数据中对功能上或者合成上相关联的分子逐个反复检索,导致难以生成表示多个分子关联的分子网络。因此需要开发一种在检索时,能够主动或者自动得到必要分子的关联信息的数据的保持方法和检索方法。此外为了在分子水平上理解疾病和病况,需要有记述生物分子及其网络与生物应答、生理作用的关系的新方法。
本发明者等人为了解决上述课题进行了刻苦的研究,结果发现,将直接结合的生物分子对作为部分信息而收集起耒,由此网罗了生物分子间的关系,针对生物分子中与生物应答的表达直接相关的关键分子,在其与靶标生物分子的对的信息中,添加了由生理作用、生物应答、临床症状等组成的生物学事件信息并加以保存,通过对包含指定的1个以上的任意生物分子以及生物学事件的关联自动逐个探索,制成分子功能网络,解决了上述课题。
即,本发明提供了使用储存了直接结合的生物分子对相关信息的生物分子连锁数据库生成分子功能网络的方法。根据本发明的优选方案,能够提供使用含有生物学事件信息的生物分子连锁数据库制成与生物学事件信息有关的分子功能网络的上述方法、使用含有与生物分子自身相关信息的生物分子信息数据库的上述方法、以及生成含有生物学事件信息相关的医药分子的分子功能网络的上述方法。此外,根据本发明还可以提供一种推测方法,即通过使用储存有直接结合的生物分子对的相关生物学事件信息的生物分子连锁数据库,对任意生物分子或者医药分子有直接或者间接关系的生物学事件进行推测的方法。并且,本发明还提供了当生物分子是其他数据库或者文献中的基因所编码的蛋白质时,可以通过制成与该生物分子的分子略称以及该基因名称或ID或略称相对应的数据库,使用分子功能网络分析基因的多型性或者表达的信息的方法。
根据本发明的更优选方案,可以提供根据网络上的相互关联、以成组的生物分子对数据为子网络、之后,基于归属的子网络以及子网络间的包含关系将分子功能网络层次化并且以此为特征的上述方法;还可以提供基于分子对的归属路径名、归属子网络名等把生物分子对相关信息层次化后加以保存,并且以此为特征的上述方法;基于基因群中的表达模式和到达细胞表面的模式等把生物分子自身相关信息层次化后保存,并以此为特征的上述方法;而且还能够提供基于该生物学事件的上位概念进行的分类和病态事件的关联、把该事件相关信息层次化保存,并以此为特征的上述方法。并且,本发明还提供分别针对生物分子对相关的上位层次、生物分子自身相关的上位层次、生物学事件相关的上位层次的保存项目,保存项目间的关联性和依存关系等的相关信息并以此为特征的上述方法;利用生物分子信息数据库以及生物分子连锁数据库中保存的层次化信息,简便地生成分子功能网络并以此为特征的上述方法;利用生物分子信息数据库以及生物分子连锁数据库中所保存的层次化信息对分子功能网络所表现的详细程度进行控制并以此为特征的上述方法。
并且本发明提供如下所示的方法和数据库。1.赋予生物学事件信息和生物分子关系的方法。2.和生物学事件信息有关系的分子功能网络的生成方法。3.含有和生物学事件信息有关系的医药分子的功能网络的生成方法。4.对任意生物分子有直接或者间接关系的生物学事件进行推测的方法。5.使用含有生物学事件信息的生物分子连锁数据库,对任意的生物分子直接或者间接相关的生物事件进行推测的方法。6.使用含有生物学事件信息的生物分子连锁数据库,对任意的生物分子相关的分子功能网络以及该分子直接或者间接相关的生物事件进行推测的方法。7.在直接结合的生物分子对信息中补加与生物事件的发生直接相关的关键分子和它的靶标生物分子对以及该生物学事件信息的生物分子连锁数据库。8.含有源自关键分子的生物学事件信息的生物分子连锁数据库。9.含有携带生物事件信息的关键分子的生物分子连锁数据库。10.通过生物分子连锁数据库的连接(connect)检索得到的分子功能网络。11.使用上述的7~9的任意一个生物分子连锁数据库,对任意生物分子相关的分子功能网络和生物学事件进行推测的方法。12.使用上述7~9的任意一个生物分子连锁数据库和医药分子连锁数据库,对任意生物分子或医药分子相关的分子功能网络和生物学事件进行推测的方法。13.含有与生物学事件信息中的关键分子的量或者质的变化相对应的波动信息的上述1~12所记载的方法或者生物分子连锁数据库以及功能网络。14.含有与生物学事件的信息中的关键分子的生成脏器和生物学事件的发生脏器信息的上述1~12所记载的方法或者生物分子连锁数据库以及功能网络。15.含有与生物学事件的信息中的关键分子的量或者质的变化相对应的波动信息同时含有关键分子的生成脏器和生物学事件的发生脏器信息的上述1~12所记载的方法或生物分子连锁数据库以及功能网络。16.通过保存直接结合的生物分子对和表明该结合关系的信息,制作与1个以上任意生物分子在功能上或生物合成上有直接或间接关系的分子功能网络的方法。17.使用直接结合的生物分子对信息的集合,对与任意生物分子在功能上或生物合成上有直接或间接关系的关键分子进行探索的方法。18.在权利要求17项中所记载的方法的基础上对与任意生物分子有直接或间接关系的生物学事件进行推测的方法。19.通过保存直接结合的生物分子对和表明该结合关系的信息,制作表示生物分子间在功能上或生物合成上的关系的分子功能网络的方法。20.将直接结合的生物分子对和表明该结合关系的信息作为一部分保存起耒,通过连接检索,制作与任意1个以上生物分子相关的分子功能网络的方法。21.将直接结合的生物分子对和表明该结合关系的信息作为一部分保存起耒,通过连接检索,找出与指定的1个以上的生物分子在生物合成上以及功能上有直接或间接关系的生物分子组的方法。22.基于与疾病相关的生物学事件群,对与该疾病相关的分子功能网络进行推测的方法。23.基于与疾病相关的生物学事件群,对与该疾病相关的分子功能网络进行推测,进而推测可能的创新药物靶点的方法。24.基于与疾病相关的生物学事件群,将与该疾病相关的分子功能网络上的生物分子作为创新性药物靶点时,对其副作用风险进行推测的方法。25.根据与某些疾病相关的分子功能网络上的任意生物分子的功能调控,对生物学事件的波动进行预测的方法。26.利用关键分子的量的变动和生物学事件的波动信息,辅助选定创新性药物靶点的方法。27.上述26所记载的方法中所使用的生物分子连锁数据库。28.含有医药分子和靶标生物分子对的信息的生物分子连锁数据库。29.添加有医药分子和靶标生物分子的对信息以及作用和副作用信息的生物分子连锁数据库。30.使用添加有医药分子和靶标生物分子对的信息以及作用和副作用信息的生物分子连锁数据库,对医药化合物的副作用风险以及药物间的相互作用进行推测以及回避的方法。31.使用添加有医药分子和靶标生物分子对的信息以及作用和副作用信息的生物分子连锁数据库,根据需要与基因多型的信息连接、对治疗疾病的医药化合物进行选择和用量设定的方法。32.以生物分子连锁数据库或分子功能网络中的蛋白质与基因数据库连接为特征的上述1~31中所记载的方法或生物分子连锁数据库或分子功能网络。33.以生物分子连锁数据库或分子功能网络和基因组序列相对应的基因信息连接为特征的上述1~31中所记载的方法或生物分子连锁数据库或分子功能网络。34.以生物分子连锁数据库或分子功能网络与每个脏器的蛋白的表达信息和相对应的基因信息相连接为特征的上述1~31中的方法或生物分子连锁数据库或分子功能网络。35.以生物分子连锁数据库或分子功能网络和与基因多型相关的基因的信息相连接为特征的上述1~31的方法以及生物分子功能网络。36.以生物分子连锁数据库或分子功能网络与其他生物种的基因组以及基因序列相对应的基因组或者基因信息相连接为特征的上述1~31的方法或者生物分子连锁数据库或分子功能网络。37.利用由于使用医药分子而引起的特定脏器中蛋白表达的变动信息,对疾病的机制进行推测的上述1~31的方法或者生物分子连锁数据库或者分子功能网络。38.为了分析特定疾病中常见的基因多型群的信息所使用的上述1~31的方法或生物分子连锁数据库或者分子功能网络。39.将生物分子对关系模式化,以此为特征的上述16~21的方法或生物分子连锁数据库或分子功能网络。40.将生物学事件以模式化的形式表现,以此为特征的上述1~31的方法或生物分子连锁数据库或分子功能网络。41.将与关键分子的量变动相对应的生物学事件的波动信息模式化,以此为特征的上述13~15的方法或生物分子连锁数据库或者分子功能网络。42.根据需要,将2个以上的生物分子作为一个假想生物分子对待,以此为特征的上述1~41所记载的方法或分子连锁数据库或者分子功能网络。43.将分散配置的1个以上的生物分子连锁数据库以通信手段加以利用,以此为特征的上述1~41所记载的方法或生物分子连锁数据库或者分子功能网络。44.以制作含有与生物学事件的表现直接相关的生物分子信息的数据库,和并用不一定含有生物学事件信息的分子功能网络的数据库为特征的上述1~41的方法或生物分子连锁数据库或者分子功能网络。45.从不一定含有生物学事件信息的分子功能网络数据库中抽出与任意分子相关的部分分子功能网络,基于构成该网络的分子,对包含与生物学事件的表现直接相关的生物分子的方法的数据库进行检索,以此为特征的上述1~41的方法或生物分子连锁数据库或者分子功能网络。46.根据生成脏器或作用脏器等的信息,交叉(絞り込む)作为对象的生物分子或者生物分子对而得的生物分子连锁数据库或利用该数据库作成的分子功能网络或生成该分子功能网络的方法。47.对生物分子功能数据库进行连接检索,最终生成分子功能网络,根据各个网络所含有的生物分子和生物学事件信息等将此网络进行再次交叉的方法或者交叉后得到的分子功能网络。48.根据生成脏器以及作用脏器等的信息,使用以作为对象的生物分子或生物分子对交叉而得的生物分子连锁数据库,制成分子功能网络,根据各个网络中所含有的生物分子或者生物学事件等的信息,将该网络再次进行交叉的方法或再交叉后生成的分子功能网络。49.由实施上述1~48所记载方法的程序和数据库组成的计算机系统。50.记录上述1~48所记载的数据库的计算机可以读取的媒体。51.记录上述1~48所记载的与分子功能网络相关信息的计算机可读取的媒体。52.记录上述1~48所记载的数据库和记录实施上述1~48所记载的程序的计算机可读取的媒体。53.使层次化的生物学事件信息和生物分子关联的方法。54.与层次化的生物学事件信息相关联的分子功能网络的生成方法。55.以将生物分子对的信息层次化并保存为特征的分子功能网络的生成方法。56.以将生物分子的集合状态层次化并保存为特征的分子功能网络的生成方法。57.与层次化保存的生物分子对的信息相对应的生物学事件建立关联的方法。58.与层次化保存的生物分子的集合状态信息相对应的生物学事件建立关联的方法。59.以将基因群的转录信息层次化并保存为特征的分子功能网络的生成方法。60.以将蛋白表达信息层次化并保存为特征的分子功能网络的生成方法。61.对于数据库中的任意数据项目,基于关键词、数值参数、分子构造、氨基酸序列、碱基序列等进行检索,基于该检索结果生成分子功能网络的方法。62.对于制成的分子功能网络,对于其中所含的生物分子、生物分子对、生物学事件的数据,根据关键词、数值参数、分子构造、氨基酸序列、碱基序列等进行检索,从而得到该网络部分集合的方法。63.对制成的分子功能网络,对于其中所含的生物分子、生物分子对、生物学事件的数据,根据关键词、数值参数、分子构造、氨基酸序列、碱基序列等进行检索,强调表示该生物分子、生物分子对、生物学事件的方法。
图的简单说明

图1是表示本发明方法的基本概念的图。
图2是表示本发明的方法用于医药分子连锁数据库时的概念的图。
图3是表示本发明的方法用于遗传信息数据库时的概念的图。
图4是表示在实施例1中作为对象的肾素-血管紧张素系统的概念的图。
图5表示的是实施例1中的生物分子信息数据库内容的图。
图6表示的是实施例1中的生物分子连锁数据库内容的图。
图7表示的是通过有关实施例1中的生物分子的检索得到的分子功能网络图。用于提问的生物分子和生物学事件用粗体表示。
图8是表示实施例1中的医药分子信息数据库的内容的图。
图9是表示实施例1中的医药分子连锁数据库的内容的图。
图10是表示通过有关实施例1中的医药分子的检索所得到的分子功能网络的图。用于提问的医药分子和生物学事件用粗体表示。
图11是表示实施例2中的分子功能网络检索·表示程序的流程图。
图12是表示实施例2中的连接检索(1点指定)的输入项目的图。
图13是表示实施例2中的连接检索(2点指定)的输入项目的图。实施发明的最佳状态在本说明书中用语的意思及其定义如下所释。
“生物”其概念包含例如细胞器、细胞、组织、脏器、生物个体以及集合体等、寄生在生物上的生命体。
“生物学事件”的概念包括在生物中的内因以及外因所表现的所有现象、应答、反应、症状。具体的例子如转录、细胞游走、细胞接触附着、细胞分裂、神经回路兴奋、血管收缩、血压上升、血糖下降、发热、痉挛、通过异种生物以及病毒等寄生物的感染及其他。此外,对于生物外部的如光和热等物理性刺激的反应也包含在生物学事件的概念当中。
“病态事件”是包含在“生物学事件”中的概念。“生物学事件”超过了量和质上的某一阈值,即可判断为到了疾病或者病态的状态。例如血压上升的“生物学事件”异常亢进导致的“病态事件”就是高血压或者高血压症,血糖不能控制在正常范围的“病态事件”即为高血糖或者糖尿病。此外,不仅有与上述例示的单一生物学事件相关的病态事件,还有与多种生物学事件相关的病态事件。
“生物分子”指的是在生物中存在的核酸、蛋白质、脂质、糖、一般小分子化合物及其它结构的有机分子以及其集合体,也包括金属离子、水、质子(proton)。
“关键分子”主要指的是在生物分子中,介质、激素、神经递质、自体有效物质等的分子群。已知,在大多数情况下,在体内存在特定的靶标生物分子,与该分子之直接结合是上述“生物学事件”的导火索。这些分子在生物内生成后发挥作用,一般情况下,从生物系统外部给予时,会发生与其量相对应的生物学事件。具体的例子有肾上腺素、血管紧张素II、胰岛素、雌激素等。
“靶标生物分子”指的是介质、激素、神经递质、自体有效物质等生物分子以及医药分子的受体这样的特定分子。通过直接结合引发特定的生物学事件。
“生物学事件的波动信息”指的是与关键分子或者靶标生物分子的量变或者质变相对应的生物学事件的亢进、上升或者低下·减少等的信息。也包括当关键分子的量超过一定的阈值时初次引起的该生物学事件的情况。
“分子略号”是以识别或指定分子为目的的分子名称的代称。它必须与各个分子单一对应。可以是分子名称缩短的略称,也可以是和分子名称无关的英文数字以及短的文字。对于已经有在世界上使用的分子略号的分子,希望仍使用该分子略号。对于一个分子根据不同的方式可赋予多个略号的,可以根据结构基团和功能等进行层次化。
“直接结合”指的是不通过共价结合而是通过分子间的作用力形成或有可能形成稳定的复合体的情况。有时会有少见的以共价的形式结合,这种情况也包括在这个概念中。大多数情况下称为“相互作用”,相互作用这种称法含有更广的含义。
“生物分子对”指的是在生物中能够直接结合或推测为直接结合的一对生物分子。具体的例子有雌二醇和雌激素受体、血管紧张素转换酶和血管紧张素I等。在酶反应中当酶和生成物作为分子对时,不能认为这个复合体是稳定的,但也包括在生物分子对中。此外,例如像用双杂交的试验方法确定有相互作用的这样的2个蛋白质分子,虽然对二者的相互作用还不明确,也可以包括在生物分子对的范畴中。对于光、声音、温度变化、磁场、重力、压力、振动等来自生物外部的物理化学刺激,也可以把这些刺激看作假想的生物分子,定义为与相应的靶标生物分子的生物分子对。
“结构编码”指的是生物分子表明DNA类、RNA类、蛋白质类、肽类、一般小分子类等的结构特征的分类编码。
“功能编码”是表明生物分子的分子水平功能的分类编码。例如“结构编码”为“蛋白质”这样的生物分子时,表示膜受体、核内受体、转运蛋白、介质、水解酶、磷酸化酶、脱磷酸化酶等分类。当“结构编码”为小分子类的生物分子时,表示底物、生成物、前体、活性肽、代谢产物等分类。
“关系编码”指的是表示构成生物分子对的2个分子间的关系的分类编码。例如象激动剂和受体是10,酶和底物是21,底物和生成物是22这样进行的类型化。例如用双杂交的试验方法确定有相互作用但是对于2个分子间的相互作用还不清楚的的2个蛋白,希望使用能够区别该本质的编码。
“关系功能编码”是表示和构成生物分子对的2个分子的直接结合相伴随产生的现象和变化的分类编码。例如采用水解、磷酸化、脱磷酸化、活化、失活等分类。
“可靠性编码”是表示每个生物分子对直接结合的可靠性水平和作为直接结合根据的实验方法等的编码。
“连接检索”指的是指定1个以上任意生物分子或者生物学事件,对包含其的在功能上或生物合成上相关分子的关联进行自动搜索。
“分子功能网络”指的是使用生物分子连锁数据库,指定1个以上任意的生物分子或者生物学事件,通过连接检索得到的功能上或生物合成上相互关联的分子的关系网。
“医药分子”指的是作为医药制造的用于治疗的化合物分子。包括用于医学、药学研究的化合物和专利说明书及文献所记载的化合物等生理活性已知的化合物。
“生物学事件信息和赋予关系”指的是某些生物学事件发生时,所呈现或发现的某些生物分子或者医药分子或遗传信息或分子功能网的相关情况。
“模式化”指的是对生物分子、生物分子对、生物学事件等相关的信息进行数据库记录时,不是原封不动的记录所得到的信息,而是按照事先规定的种类对该信息进行分类,用表示该种类的记号表示该信息。上述的“结构编码”、“功能编码”、“关系编码”、“关系功能编码”所举的例子即为模式化的例子。
“生成脏器”指的是生成生物分子的脏器、组织、脏器或组织内的部位、脏器或组织内的特定细胞、细胞内的部位等。
“存在脏器”指的是储存生成后的生物分子脏器、组织、脏器或组织内的部位、脏器或组织内的特定细胞、细胞内的部位等。
“作用脏器”指的是生物分子或关键分子在引发生物学事件的脏器、组织、脏器或组织内的部位、脏器或组织内的特定细胞、细胞内的部位等。
作为本发明的1个实施方案,提供了以下方法(图1)。首先,制作储存有直接结合的2个生物分子对相关信息的“生物分子连锁数据库”。生物分子分子略号的赋予等、生物分子自身相关的信息也可以包含在该数据库中,但最好用别的数据库-“生物分子信息数据库”进行。接着,从上述的“生物分子连锁数据库”中,指定1个以上任意分子,进行连接检索,由此得到表现1个以上生物分子的功能上或者生物合成上关联的“分子功能网络”。
通过对与生物分子对中,至少是关键分子和它的靶标生物分子组成的生物分子对,相对应的生物学事件的信息赋予关联关系,与“分子功能网络”一起,可以对分子功能网络中的与该分子有直接或间接关系的生物学事件进行推测。在此基础上,补加关键分子的量或者质的变动和生物学事件的波动关系的信息,对分子功能网络的任意分子的量或者质的变动引发的生物学事件的亢进、上升或者抑制、低下等进行推测。
“生物分子信息数据库”的主要作用是对相应于各个生物分子的正式名称的分子略号或者ID进行定义,此外保留生物分子自身的必要信息。例如对分子名称、分子代号、结构编码、功能编码、生物种类、生成脏器、存在脏器等相关的信息进行保存。此外,即使对试验中尚未分离和确证存在的分子,例如,也可以对从其他生物种的试验推测存在的分子给于假定的分子略号的其他信息,并进行定义。
“生物分子信息数据库”也可以包含和各个生物分子的氨基酸序列和结构相关的信息,但最好将该信息在序列数据库和结构数据库中另外保存,根据需要用分子代号进行取用。对于生物分子中的低分子量物质,根据需要为了能在分子功能网络的展示中添加物质的化学结构,不仅要把正式的分子名称,还要把表示化学结构的相应数据保存在生物分子信息数据库或者另外的数据库中。
2个以上的生物分子的多聚体或者集合体具有活性或者功能等,将多个生物分子集中对待比较方便时,可以将其定义为1个假想的生物分子,赋以分子略号,在“生物分子信息数据库”中登记。这种场合,在各种组成分子已知的情况下,也可以分别为其赋以分子略号进行登记,在假想生物分子的记录中建立记述组成分子的分子略号文件。在不明由何种生物分子构成的情况下,也可以作为集体,对具有特定功能的假想的生物分子进行定义,用于生物分子对的定义中。
此外,生物分子由2个以上的结构域组成,并且由于它们各自具有不同的功能,需要对各个结构域独立对待更好时,也可以将各个结构域作为独立的分子进行处理。例如和原始的生物分子一起,将各个结构域赋以分子略号,在生物分子信息数据库中登记。在最初的生物分子记录中,建立记述分开的结构域的分子略号文件,对1个生物分子具有2个以上不同功能进行记述。不是基因的基因组序列上的特定序列,具有某些功能或者可以通过特定的生物分子识别时,可以将该序列部分作为独立的生物分子对待,赋以分子略号,用于生物分子对的定义中。
生物分子对的信息保存在“生物分子连锁数据库”中。每个生物分子对收录了组成该分子对的2个生物分子的分子略号、关系编码、关系功能编码、可靠性编码、生物学事件、作用脏器、共作用分子以及其他附加信息等。对于关键分子和它的目标生物分子的分子对,最好尽量输入生物学事件、两分子的量或者质的变动引起的生物学事件波动的信息、病态事件等的信息。对于关键分子以外的生物分子对,当存在与该生物分子对的表达直接相关的生物学事件或者病态事件时,要求将该生物学事件和病态事件输入保存。作为关键分子的量或者质的变动相对应的生物学事件波动信息,可以是例如,和正常范围相比,当关键分子增加时,生物学事件产生单纯的亢进或者低下等的信息。1种酶催化2种以上的底物进行反应,分别生成不同的反应生成物时,要附加指定酶、底物和反应生成物的关系的表现。
由于“生物分子信息数据库”和“生物分子连锁数据库”的内容和组成不同,在本说明书中作为概念上分别独立的数据库对待。从本发明的宗旨出发,当然也可以将2者合并为1个含有2种数据的数据库。“生物分子信息数据库”和“生物分子连锁数据库”也可分别2有个以上,此时,可以根据各个数据库进行适当的选择或者结合使用。例如用特定的档案进行区别,不同生物种数据可以同时保存在“生物分子信息数据库”和“生物分子连锁数据库”中,也可以将人和鼠分别制作不同的数据库进行保存。
“关系编码”可以输入成构成该生物分子对的2个分子如拮抗剂和受体、酶和底物这样的单词。但最好用代表拮抗剂和受体关系的10,酶和底物关系的21、酶和生成物关系的22的方法进行类型化输入。此外,“关系功能编码”可以方便的采用水解、磷酸化、脱磷酸化、活化、失活等功能分别加以保存的方法,但最好也进行类型化输入。
不仅有酶和底物那样相互关系明确的情况,也有例如用双杂交的试验方法证明有蛋白-蛋白相互作用的2个蛋白分子,二者的相互作用机制不明确的情况。对包括这样的生物分子对进行连接检索时,根据组成生物分子对的2个分子是否有方向性而区别对待比较方便。对于各个生物分子对,最好采用能区别属于哪种情况的关系编码。前者的情况下,对于作用方向确定的分子对的表现中,在进行检索时只要考虑2个分子的输入顺序,在后者的情况下,检索时还要考虑作用方向不明的相反方向的关系。
直接结合的生物分子对信息包括通过试验明确证明的和假定的生物分子对等多种情况。此外,通过试验法,由于存在假阳性,也会产生错误的生物分子对。这时,可以附加表示各个生物分子对的信息可靠性水平和试验方法的“可靠性编码”。在检索生成的分子功能网络过多的情况下,可以组合使用这个编码。
生物分子如果除了持有生成脏器的信息以外、还持有储存生物分子的存在脏器以及作用脏器的信息,那么,生成分子功能网络时,例如,很容易表现脏器生成的分子到达细胞外部后与其它细胞膜上的靶标生物分子在细胞外发生作用的现象。最好将生物分子的生成脏器和存在脏器的信息输入到“生物分子信息数据库”中,将作用脏器的信息输入到“生物分子连锁数据库”中。这样,不必限定于对生成脏器、存在脏器、作用脏器的记述,也可以包括组织、脏器或者脏器内的部位、脏器或者组织内的特定细胞、细胞内的部位等的信息。
证实直接结合的试验和推测的方法、生物学事件的种类、关键分子的量的变动相对应的生物学事件波动、细胞内的部位和组织、脏器、脏器内的部位的表现,只要简单,任何一种都可以用。推荐使用进行类型化、变换成短的英文数字记号等方法。如果用同义词词典进行定义,可以用同义词同时进行处理,这样可使输入的错误最小化。
以下所示的是由“生物分子连锁数据库”生成“分子功能网络”时进行“连接检索”的概念。本发明的“连接检索”只要能够实现这个概念,使用任何方法都可以。例如可以利用Sedgewick的“运算法则C(近代科学社、1996)”的第29章中所记录的“深入优先探索”的运算法则等。
用分子略号a~z表示生物分子,用(n,m)的形式表示由生物分子组成的各个生物分子对,在生物分子连锁数据库中按照下面的表示方法表示生物分子对的集合。(a,c)(a,g)(b,f)(b,k)(c,j)(c,r)(d,v)(d,y)(e,k)(e,s)(g,u)(j,p)(k,t)(k,y)(p,q)(p,y)(x,z)用连接检索,例如指定生成含有c和e的分子功能网络,会对共同拥有分子对中的一个分子的分子对(c,j)(j,p)(p,y)(y,k)(k,e)逐个搜索。得到分子c、j、p、y、k、e关联的c j p y k e分子功能网络。
在所得到的“分子功能网络”的基础上,按照下面的方法对生物学事件进行推测。生物分子e是关键分子,当拥有该生物学事件E的信息时,能够推测生物分子c、j、p、y、k与发生生物学事件E的直接或间接关系。此外,例如当分子e减少、产生E的表达亢进的生物学事件的波动信息时,可以对(c,j)(j,p)(p,y)(y,k)(k,e)的关系分别加以考虑,推测c、j、p、y、k中任意分子的量或者质的变动对生物学事件E发生的影响。
并且,在从某个生物分子到关键分子的分子功能网络中有N个生物分子,这些生物分子对生物学事件发生量QE的影响可以通过下面的式子进行预测。这里的Si是第i个生物分子的状态的质的评价值,Ri是表示第i个生物分子的量的值,Vi是表示第i个生物分子的存在环境的评价值,f是拥有3×N个输入值的多价函数。
QE=f(S1,R1,V1,...SN,RN,VN)1个分子功能网络所关联的生物学事件不限定为1种,此外,可以推断出1种生物分子事件所关联的分子功能网络有数个,可将与生物学事件的一方面有关联的分子功能网络交叉。例如指定1个以上的生物分子生成“分子功能网络”的情况下,生成含有很多生物分子的“分子功能网络”时,有可能添加生物学事件信息,“分子功能网络”的范围有所交叉。当然,以任何一个介质分子或和该分子的靶标分子的关系作为条件,也可以生成“分子功能网络”。
此外,对“生物分子连锁数据库”的数据进行适当的分割,或者增加筛选程序,或者抽出部分集合,或者进行层次化,都能生成必要范围的分子功能网络。分割和增加筛选程序和抽出部分集合可以通过对本发明数据库特有的数据项目的检索、采用关键词的一般性文字检索、相对于氨基酸序列、或者核酸序列的相同性检索、化学结构式的部分结构检索等检索方法进行。事先对“生物分子连锁数据库”或者“生物分子情报数据库”进行这些检索,可以生成加以限定的分子功能网络和赋以特征的分子功能网络。例如使用生成脏器和作用脏器的信息,从在肝脏生成的生物分子,在皮肤引发生物学事件的角度出发,制作交叉的部分数据库,采用连接检索,可以生成限定范围的“分子功能网络”。此外,针对通过连接检索所生成的分子功能网络,对其中包含的生物分子或者生物分子对进行上述的检索,通过分割、筛选程序和抽出部分集合,又可以生成含有所希望特征的分子功能网络和所希望范围的分子功能网络。这样限定和赋以特征,不仅方便检索,而且在分子功能网络上可以对特定的生物分子群和生物分子对进行强调表示,有助于有效地理解分子功能网络。
“生物分子连锁数据库”的分割、筛选程序和抽出部分集合,可根据网络的关联视情况进行,保存并利用表示该包含关系的信息,可以使“分子功能网络”进行层次化。即使含有一部分尚未阐明的分子和分子间的关系,也可以将其整理收集作为1个假想的生物分子与其他分子作为分子对进行定义,进而生成假定的分子功能网络。当所含的分子数目过多,生成的网络过于复杂时,可以在网络上将连接的2个以上的生物分子群定义为假定的1个生物分子,实现网络的简化。
通过这样利用层次化,可以实现连接检索的高速化,还可以对网络展示的详细程度进行调节,适当的回避过度复杂。在本说明书中,把在网络上连接的由2个以上的生物分子对组成的部分网络称为“子网络”。
可以指定任意部分的网络作为子网络,优选代谢系统中的TCA循环和磷酸戊糖循环这样研究人员所熟知的级联反应、途径、循环等作为子网络更为便利。此外,即使某些子网络包含有其他的子网络也可以,例如代谢系统自身可以视为是含有多个子网络的上位子网络。
也有把各个子网络作为一个假想生物分子的处理方法,但将与构成子网络的生物分子对和子网络阶层相关的信息保存在“生物分子连锁网络”中更为方便。此外在“生物分子连锁网络”中建立表示子网络的上位数据层,也可以在此处对该子网络的信息加以保存。生物分子对的子网络的层次化不限定为2层,将多个子网络的集合保存为上位子网络也可以。在生成分子功能网络时,为了便于每个分子对的数据和上位阶层的子网络之间的相互参照,最好将表示每个分子对的数据与各个子网络数据之间的相互关联的信息进行归纳。即使1个分子对与多个子网络有关也没有关系。
优选地,层次化的“生物分子连锁数据库”的子网络数据中,不仅要求含有和下位阶层的生物分子对的关联,而且还要含有子网络间的相互关联的信息。例如在代谢体系中,糖解系统和TCA循环是连续作用的子网络,可以将这些子网络间的关系在上位阶层中作为“对”的关系保存起来。这种情况下,优选地,不仅要求有子网络对的信息,而且要求添加作为子网络间的连接点的生物分子的信息。
此外,本发明的特征是除网络可层次化外,生物分子本身也能层次化,可以将此信息保存在“生物分子信息数据库”中而加以利用。为了快速检索和方便多样地展示网络,最好将生物分子的信息和生物分子对的信息双方都进行层次化。把生物分子作为层次化的对象,举例如下。在生物分子中,多种不同的分子特异聚集后会表现出某些功能。很多时候分子聚集状态的差别会控制功能展现的状态和类型。此外,以免疫细胞等为例,有时,细胞表面表达的多个分子的组合,控制着和生物学事件的关联和细胞的功能。这种情况下,可以采用将上述的分子集合状态假定为1个假想的生物分子的处理方法。其他的方法还有,为了表示“生物分子信息数据库”中的分子集合状态,可以建立上位数据层,并将该集合状态的信息收集于此。优选地,在生成分子功能网络时,为了便于生物分子数据和上位阶层数据进行相互参照,可以将表示生物分子数据和上位阶层数据关联的信息分别进行归纳。即使1个生物分子和多个上位阶层数据相关也没有关系。
有很多和特定生物分子对没有相互关联的生物学事件、病态事件。例如生物学事件、病态事件和某些子网络的形成之间的关系已经清楚,但该事件的直接的生物分子对尚有未知的情况。在这样的情况下,利用上述生物分子对数据的层次化,可以将生物学事件和病态事件和生物分子对的上位阶层的子网络的数据联系起来,对该事件和生物分子网络的关系进行记述。
此外,某些生物学事件、病态事件的发生和特定分子的集合状态、到达细胞表面的特定分子的表达状态相关的情况下,利用上述分子集合状态和分子表达状态的层次化,将生物学事件、病态事件和分子集合状态以及分子表达状态的阶层数据联系起来,可以对该事件和生物分子网络的关系进行记述。
另外,也存在某些生物学事件、病态事件和特定的生物分子对和子网络没有任何关联的相关的情况。作为这样的例子,炎症性细胞因子的游离、白细胞向组织的浸润、毛细血管的通透性提高等各种各样的生物学事件组合在一起引起了“炎症”这种病态事件。为了处理这样的事件,将生物学事件、病态事件层次化,在下位阶层中记述与生物分子对和子网络相关的事件,最好在上位阶层中对与下层事件相关而引起的事件进行记述。这样的层次化中,即使使用包括2个层次以上的层次构造也没有关系。为了便于各个阶层间的事件进行相互参照,最好在各个阶层的事件数据中收集表示上下阶层的数据关联的信息。这样,通过对生物学事件、病态事件的信息进行层次化,也可以记述对特定的生物分子对和子网络没有直接关系的事件与分子功能网络的关系。
如上所示,对“生物分子信息数据库”以及“生物分子连锁数据库”的数据进行层次化,并且保存起来,可以有效的生成多种用途的分子功能网络。
为了对在糖解体系中存在的某些生物分子(分子A)和某些激酶级联反应中存在的某些蛋白(分子B)的关联进行研究,采用未层次化数据的方法时,必须要以巨大数目的分子对为对象进行连接检索,分子A和分子B之间的路径很长的情况下,这种检索事实上不可能实现。一方面,若采用层次化的数据,对“糖解系统”这个子网络和“某些激酶级联”这个子网络之间的关联在子网络上位阶层进行连接检索,在发现上位阶层的路径时,根据需要可以在路径上的各子网络的下位阶层进行连接检索。这样一来,通过把路径探索问题分割成不同阶层的问题,可以生成在不采用层次化时不可能生成的分子功能网络。
另外,上述利用层次化数据进行连接检索中,需要频繁的参照特定的子网络时,可以在该子网络内部先进行连接检索,将该子网络内部的分子功能网络信息保存下来。通过这样的处理,能够更有效率的生成完整的分子功能网络。
另外,例如生成和“炎症”这样的病态事件相关的分子功能网络时,可以对“炎症”上位阶层事件相关的下位阶层事件进行探索,从该下位阶层事件相关的生物分子对或者子网络出发,进行连接检索,进而可以生成包括范围更广的分子功能网络。
如上所述,根据本发明从生物分子间的直接结合关系信息出发,可以生成和任意分子相关的分子功能网络。更加容易对直接或者间接相关的生物学事件和病态事件进行推测。此外,本发明的另外一方面,从以疾病为特征而表现的生物学事件和病态事件、生物分子的量变化等知识出发,对和疾病关联可能性高的分子功能网络进行选择,将其用于推测疾病的分子机制的目的。此外,根据本发明,有可能构成在特定的疾病和症状的治疗中,阻断网络的哪个过程有效,网络中的哪个分子作为创新性药物靶点(医药开发中作为标靶的蛋白质或者其他生物分子)有希望,根据创新性药物靶点可以预想到的副作用有哪些?在回避这些副作用方面用哪种检测(assay)体系来进行候选开发药物的筛选等提供创新药物的战略。
医药分子通常在体内和以蛋白质为主的生物大分子相结合,通过调控其功能发挥药理活性。对这些分子的作用进行了比生物分子的作用更为详细的研究,在对象疾病的分子机理的阐明中起作用。在这里,着眼于将允许制造的用于医疗的医药分子和药理学研究等的药物分子及其靶标生物分子的成对关系添加到上述的生物分子以及生物分子间的信息中,由此提高本发明方法的有用性。靶标生物分子在大多数情况下是被蛋白质或者糖等修饰的蛋白质。从含有靶标生物分子的分子功能网络出发可以对与副作用有关的生物学事件进行推测。根据与并用的药物的相关分子功能网络的交叉,有可能对药物间的相互作用进行推测。其结果,有可能对考虑副作用的风险和药物间的相互作用风险的药物进行选择和用量的设定。
以下对在本发明中添加医药分子和靶标生物分子对的关系的方法举例说明。针对医药分子的正式名称,对分子略号进行定义,对该分子相关的所有信息进行收录,制成“医药分子相信数据库”。在这里,对医药分子的名称、分子略号、适用疾病、用量、靶标分子及其它信息进行保存。和生物分子信息数据库的的情况一样,医药分子的化学结构、氨基酸序列(肽或蛋白质的情况下)、立体结构等的信息包括在“医药分子信息数据库”中,但最好保存在其它的数据库中。为了区别医药分子和生物分子、蛋白质和小分子等,可以用结构编码等进行区别,也可以采用第1个文字即可以进行区别的分子略号。并且,参照医药的附加说明书和其他文献,输入药物的显著副作用、和其它药物的相互作用、代谢酶的情况等,有助于根据分子功能网络,对和基因多型有关的药物进行适当的选择。
进一步,作成含有医药分子和靶标蛋白质对之间的关系的信息的数据库“医药分子连锁数据库”,保存医药分子的分子略号、靶标生物分子的分子略号、关系编码、药理作用、适用疾病以及其他信息。对于靶标生物分子的分子略号,必须采用在生物分子信息数据库中定义的分子略号。对于关系编码等生物分子连锁数据库共同的数据项目,可以按照生物分子连锁数据库的标记方法使用。
制作“医药分子信息数据库”和“医药分子连锁数据库”,通过摘取医药分子以及医药分子对的信息,可以按照图2所示对本发明的方法进行扩充。这里通过连接检索,生成分子功能网络和推测生物学事件等,采用上述只用生物分子连锁数据库和生物分子信息数据库情况下相同的方法进行,能够同时得到以该网络上的分子作为靶标的现有医药分子的信息。此外,可以从只用生物分子连锁数据库和生物分子信息数据库就作成的分子功能网络中,抽取和指定医药分子相关的分子功能网络,有目的的加以利用。
一方面,以人类基因组分析为主的从多个角度对遗传信息的分析正在迅速进展。基因组范围内的cDNA分离、orf(open reading frame,可读框)和基因序列的阐明不断深入,各个基因在基因组上的定位也在进行。这里,作为本发明的另一方案,可以制成对生物分子中的蛋白质分子略号和编码该蛋白质基因的名称、略称、ID及其他信息赋以关联的生物分子基因数据库,并如下所示对本发明的方法进行扩充。即,根据基因和生物分子的对应关系,可以从分子功能网络上的分子以及生物学事件关联的方面,对疾病标记基因和蛋白所含的意义、疾病和基因多型的关系等知识进行理解。最好在生物分子-基因数据库中,在含有生物种、基因组上的位置、基因序列、功能以外、还含有基因多型的氨基酸变异和略称、功能的关联等信息,根据需要可以生成2个以上的数据库。
根据在基因组序列上定位的基因名称和基因的排列,明确了通过特定的关键分子作用于核内受体而转录产生的蛋白,有可能将生物分子间相互调控的关系反映到分子功能网络中。此外,已经知道脏器所表达的基因和蛋白是不同的,根据本发明的方法,将这些表达信息收取到“生物分子信息数据库”中,可以生成各个脏器不同的“分子功能网络”。例如可以对在不同的脏器中的以核内受体为靶标的医药分子的作用有差异或相反的现象进行说明。此外,已经知道,使用医药分子的情况下,蛋白表达发生变化的事实,根据本发明的方法,可以在与靶标生物分子相关的分子功能网络上对每个表达蛋白量的增减进行解释,对考虑到基因的多型性的药物的选择很有用处。
在保存上述的基因转录和蛋白表达的信息时,也可以利用层次化的概念,生成更有效并且范围广的分子功能网络。例如针对通过特定的核内受体而转录、表达的多个基因、蛋白质,在“生物分子信息数据库”中设定表示基因群的转录、蛋白群的表达的上位阶层,并将该基因群、该蛋白群的数据保存于此即可。在存在该基因群的转录和该蛋白群的表达相关的生物学事件、病态事件的情况下,通过在“生物分子连锁数据库”中记录该基因群和该蛋白群的上层阶层数据和该事件的关联关系,可以生成不表示每个基因、分子和该事件之间的关联的分子功能网络。
在上述的基因转录和蛋白表达的信息层次化保存方法中,当对该基因群的每个基因或者该蛋白群的每个蛋白的转录或者表达的量的信息清楚的情况下,将这些信息都作为数值参数在“生物分子信息数据库”中保存即可。通过利用这些数值参数,根据每个基因的转录量或者每个蛋白的表达量的差异,可以对相关的生物学事件、病态事件的变化情况进行记录。
此外,随着对基因组和基因的个体多样性的阐明不断进展,通过将这些信息和本发明的方法进行连接,可以推动对个体差异的理解,使建立在个体差异上的治疗成为可能。对于特定的生物分子(蛋白质)的功能受到损害的基因多型,通过在分子功能网络上进行说明,可以推测对生物学事件的影响。将由于1个基因的缺损或者异常引发的遗传性疾病的症状,以及生物学事件异常的信息与本发明的方法连接,也有助于对其的理解。
据报道,在几个有代表性的疾病中,存在有各个疾病的患者中高频出现的多个基因、疾病背景基因。假定实际上存在易患特定疾病相关的遗传体质的情况下,例如与血压调节相关的分子功能网络有2个以上,因其中任何一个网络中的任何分子异常,出现相当数量的高血压背景的基因,也是可以理解。为了解释这样的多基因问题,本发明的方法是不可缺少的。
此外,近年来,小鼠、大鼠等动物的基因组和基因的分析工作迅速进展,并且对人的基因组和基因进行了对应关联工作。虽然认为这些动物的和人的生理功能调节相关的蛋白具有相当大的相似性,但是由于存在相当大的差异,妨碍了医药开发。在已知这些动物和人之间蛋白和蛋白功能存在很大的差异的情况下,通过与本方法连接,可以搞清楚和人的分子功能网络的差异,继而有助于医药开发。而且,一般,对于开发用于人的医药转用到动物的很多药物,可以根据恰当的目的进行使用。
在医药开发中,存在有和人的疾病以及病态相似的病态动物。以这种动物的药理活性作为指标进行开发的情况很多。这样的病态动物的基因研究也不断深入,根据本发明的方法,可以和人的遗传信息进行对照,有助于对人的这种疾病的机理进行解释。
并且,为了明确基因功能,大多数是采用作成特定基因受到破坏的基因敲除动物和基因功能变弱、基因过度表达的转基因动物的方法。据说这些动物,很多时候会由于产生致死性而无法出生或者对生理功能和行动看不出任何影响的情况,对出生的动物观察其有何异常时,这些动物试验的结果分析也非常困难。在这样的试验中,使用本发明的方法,因可以对该基因操作的影响进行预测,而便于功能的分析。
基因相关信息和分析的进展一起推动从序列ID角度进行统一的尝试,并且推动了在基因组的序列上对基因进行定位的尝试。也有人认为考虑到和上述的“生物分子连锁数据库”的联合关系,构筑独立的遗传信息数据库,可以用于上述目的,但考虑到这项信息量的扩充和公开的方向,可以根据本发明的方法随时将将来公开的信息收录进来,上述方法的实施可行性很高(图3)。
采用本发明方法的生物分子连锁数据库,并非一定需要在同一个场所管理、保存,可以根据统一分子略号,对在不同场所管理、保存的1个以上的生物分子连锁数据库,适当选择,以通信手段,使之接续使用。不仅是生物分子连锁数据库,使用本发明的方法的生物分子信息数据库、医药分子连锁数据库、医药分子信息数据库、遗传信息数据库也可以采用同样的处理方法。
作为本发明的实施的其他方案,提供了制作含有生物学事件发生直接相关的生物分子和该生物学事件的信息的数据库(生物学事件-生物分子数据库),并和不一定含有生物学事件信息的分子网络数据库并用的方法。其他方案还有,提供了一种方法,该方法从不一定含有生物学事件信息的分子网络数据库中,抽出与任意分子相关的部分分子网络,基于构成该网络的分子,对上述生物学事件生物分子数据库进行检索。
本发明的实施的其他方案还有,针对“生物分子信息数据库”、“生物连锁数据库”、“医药分子信息数据库”、“医药分子连锁数据库”、“生物分子-基因数据库”等各个数据项目,进行关键词、数值参数、分子结构、氨基酸序列、碱基序列等的检索。提供基于该检索结果生成分子功能网络的方法。以下,举出基于检索生成分子功能网络的例子进行悦明,不过本发明的范围并不仅仅限于例子中。
在各个数据库中,分子名称、分子略号、生物种类、生成脏器、存在脏器等各种信息以文本的形式保存。针对这些文本,基于文字序列完全一致、部分一致进行检索,可以得到交叉的生物分子、生物分子对、生物学事件、病态事件、医药分子、医药分子-生物分子对、基因-蛋白的相应数据。基于这些交叉的信息,对连接检索的起点和终点进行设定,利用连接检索,可以缩小作为对象的分子对的范围,有可能生成符合使用目的的分子功能网络。
对“医药分子信息数据库”中的医药分子的化学机构、立体结构进行保存时,通过基于与这些相对应的全部结构一致、部分结构一致、结构相似性等进行检索,可以得到交叉的医药分子数据。基于交叉的医药分子,生成与该医药分子相关的分子功能网络。可以对该医药分子相关的生物学事件、病态事件进行检索。
在“生物分子信息数据库”中,保存基因转录、蛋白表达等的数值参数时,基于这项数值参数进行检索,根据基因的转录量、蛋白表达量可以生成相应的分子功能网络。
将蛋白氨基酸序列保存到“生物分子信息数据”或相关联的数据库中时,基于相对于这些氨基酸序列的同源性和部分序列类型的一致性进行检索,可使生物分子交叉而能生成基于该生物分子的分子功能网络。对于功能未知的蛋白质及其部分序列信息,这个方法可以对与该蛋白质相关的可能性高的分子功能网络进行推测,进一步还可以推测该蛋白的功能。
将蛋白相对应的基因的碱基序列保存到“生物分子信息数据库”、“生物分子-基因数据库”或关连数据库中时,基于与这些碱基序列相对应的序列同源性和部分序列类型的一致性进行检索,可使生物分子交叉,继而生成有关该生物分子的分子功能网络。对于功能未知的基因及其部分的序列信息,用这个方法,可以对与该基因翻译得到的蛋白相关的可能性高的分子功能网络进行推测,进一步还可以有效推测该蛋白的功能。
实施本发明的其他方案包括,提供了为了实施本发明的方法的由程序和数据库组成的计算机系统、记录为了实施本发明的方法的程序和数据的计算机可以读取的媒体、记录为了在本发明的方法中使用的数据库的计算机可以读取的媒体、记录根据本发明的方法生成的分子功能网络相关的信息的计算机可以读取的媒体等等。
总结本发明的方法的特征,如下所示-包括生物学事件信息、通过储存直接结合生物分子对的信息,做成生物内的分子间的相关数据库。
-由部分集合的上述数据库中进行连接检索,作成与任意的生物分子以及生物学事件相关的分子功能网络。
-基于分子功能网络,对任意的分子直接间接相关的生物学事件进行推测。
-从带有生物学事件信息的分子功能网络,对疾病的机理、可能的创新药物作用的靶点、副作用风险等进行推测。
-从生物分子的量或者质的变动中对生物学事件的波动进行推测。
-含有生物分子的生成脏器、存在脏器以及作用脏器的信息的分子功能网络。
-使用医药分子信息和分子功能网络对副作用、药物之间的相互作用进行推测。
-在分子功能网络上对由于使用医药分子导致的蛋白表达的变化进行解释。
-根据和遗传信息的连接对基因多型对分子功能网络的影响、疾病背景基因等进行分析。
第7图所示是以生物分子之一的“血管紧张素I”和生物学事件之一的“血压上升”作为问题提出而生成的分子功能网络。在生物分子连锁数据库中进行连接检索,得到了从“血管紧张素I”到“血压上升”的相关生物分子,并且据此制作成分子功能网络。
此外,制作具有血压下降作用的医药分子相关的医药分子信息数据库(第8图)和医药分子连锁数据库(第9图),将其与生物分子信息数据库(第5图)以及生物分子连锁数据库(第6图)并用,进行医药分子相关的分子功能网络生成的尝试。
第10图表示的是的以一种医药分子依那普利和“血压上升”这个生物学事件作为问题提出而生成的分子功能网络。因为依那普利对与其直接结合的血管紧张素转换酶有阻碍关系,故而阻断了和血管紧张素转换酶有直接结合关系(酶-底物关系)的血管紧张素II的连锁关系,所以表现出其下游的、网络上存在的“血压上升”事件被抑制(停止)。
本程序由以下步骤组成为了得到进行连接检索所必须的分子名、子网络以及生物学事件名等进行的检索1101~1103步;进行连接检索、表示分子功能网络的1104~1108步;以及对生成的分子功能网络进行再处理而添加的1109~1110步。
使用者首先在1101步骤中指定与分子名、分子略号、子网络名、生物学事件名、病态事件名、疾病名、氨基酸序列、核酸碱基序列、外部数据库ID、医药分子结构等相关的检索方法,输入提问的文字。作为检索方法,使用者可选择使用针对上述项目进行个别检索的方法,和针对多个项目的采用共同的提问文字列进行检索的方法等。提问文字,也可以不是和数据库中的数据项目完全一致的文字,也可以是含有表示名字的一部分的文字和所谓通配符文字等的文字。当指定蛋白质的氨基酸序列或者核酸碱基序列为检索项目时,作为提问文字,使用者可以输入表示氨基酸序列或者碱基序列的文字代码(例丙氨酸=A、甘氨酸=G、鸟嘌呤=g、胞嘧啶=c等)的文字。指定医药分子结构为检索项目时,使用者可以输入以MOLFILE形式表现提问分子结构的数据。
对于使用者输入的检索项目,程序在步骤1102中对生物分子信息数据库、生物分子连锁数据库以及相关的数据库的数据项目,通过关键词检索、分子结构检索、序列检索等方法进行检索。关键词检索不仅允许文字列完全一致、还允许和文字列部分一致,和按照通配符与多个文字列相一致。步骤1101中,当指定氨基酸序列或者碱基序列为检索项目时,程序针对生物分子信息数据库以及相关的序列数据库中的氨基酸序列、碱基序列,根据和提问文字列(序列)的一致程度和相同性进行检索,给出一致度和相同性高的序列的ID或者相对应的分子名作为检索结果。当指定医药分子结构为提问项目时,程序根据部分结构匹配(マッチンク)的方法对部分结构一致或者类似的医药分子进行检索,给出相应的医药分子名作为检索结果。
在步骤1102中检索得到的命中(ヒット)项目在步骤1103中用列表的形式表示。程序根据对列表中的位置进行区分的方法和赋予图标(アイコン)的方法等区别表示列表中的各个命中项目、分子名、子网络、生物学事件名的每个相应的位置。
其次,使用者在步骤1104中指定连接检索方法和作为检索端点的分子名、子网络名以及生物分子事件名(包括病态事件)。在本实施例中,提供指定1点,并对其周边相关的网络进行检索的方法和指定2点检索联系二者的网络的检索方法。在第12图和第13图中分别表示了这2个检索方法所必须输入的项目。使用者根据从步骤1103所示的列表中选择适当的项目,输入分子名、子网络名以及生物学事件名。当列表中没有适合的项目时,使用者可以返回到步骤1101重新输入检索项目,重复从步骤1101到1103步骤的检索步骤,直到找到适合的项目为止。
在步骤1105中,使用者输入连接检索的限定条件。限定条件可以指定生成的分子功能网络中所含的分子数的上限和在2点间检索时该2点间的相关数(路径数)的上限。在步骤1106中,使用者指定检索得到的分子功能网络的表示方法。表示方法可以选择如对组成网络的全部分子进行明示的方法(分子网络表示法),和将所属分子在子网络中进行归纳,使之成为一个节点的表示方法(子网络表示法)等,使用者可以从多种方法中进行选择。
根据从步骤1104到步骤1105指定的条件,程序在步骤1107对生物分子连锁数据库进行连接检索。检索得到的分子功能网络,使用者根据在步骤1106中指定的表示方法,在步骤1108中表示为含有分子、子网络或者生物学事件作为节点的组。
使用者在对步骤1108中所展示的分子功能网络进行视觉检测时,根据需要有时可返回到1104变更连接检索的条件,反复检索,有时也可返回到步骤1101,重复进行分子名、子网络以及生物学事件名的检索。
此外,根据本程序中附加的步骤1109以及步骤1110,可以对生成的分子功能网络进行再次处理。在步骤1109中,使用者可以进行多个分子功能网络间的理论计算。为了实施步骤1109,将进行到步骤1108的步骤反复进行多次是生成多个分子功能网络所必须的。针对这些多个分子功能网络,程序可以求得网络间的共同部分(AND演算)和非共同部分(XOR演算),或者得到多个网络的总的集合(OR演算)。这个功能对于调查不同的生物种和脏器间的分子功能网络的差异等有用。
步骤1110中,便用者针对生成的分子功能网络,再次进行交叉检索,对该分子功能网络中的分子和部分网络可以强调表示,或者抽出来表示。这种交叉检索可以用在步骤1101~1103的任何一步所用的方法中。根据步骤1110,例如对于在特定的脏器表达的生物分子,可以在分子功能网络中强调表示,或者从范围广泛的分子功能网络中只抽出属于指定的子网络的进行表示。
产业上利用的可能性作为包含有生物学事件的生物分子对信息的集合,本发明的生物分子连锁数据库,通过检索生成该分子间在必要范围内的功能上或者生物合成上有关联的分子功能网络,可用于对与任意生物分子的表达有直接或者间接关系的生物学事件进行推测,此外,通过与医药分子的信息以及遗传信息相连接,能够得到基于新药开发和个体差异的医疗上必要的知识。
权利要求
1.生成含有生物学事件的分子功能网络的方法,包括使用含有生物学事件信息的生物分子连锁数据库,进行连接检索。
2.推测方法,包括使用含有生物学事件信息的生物分子连锁数据库,进行连接检索,生成含有生物学事件的分子功能网络,对该网络中的任意的生物分子和任意的生物学事件之间的路径进行推测。
3.推测方法,包括使用含有生物学事件信息的生物分子连锁数据库,进行连接检索,生成含有生物学事件的分子功能网络,对该网络中的任意的生物分子相关的生物学事件进行推测。
4.生成分子功能网络的方法,包括使用对生物分子对的信息层次化并保存的生物分子连锁数据库,进行连接检索。
5.权利要求1~3中任意一项的方法,其特征在于将生物分子对的信息进行层次化并保存在生物分子连锁数据库中。
6.权利要求1~5中任意一项的方法,其特征在于使用层次化保存生物分子和/或生物学事件信息的数据库。
7.权利要求1~6中任意一项的方法,其特征在于针对数据库中的项目,采用关键词检索、分子结构检索、以及序列相同性检索中的任何1种或者2种以上并用进行检索。
8.权利要求1~6中任意一项的方法,其特征在于通过针对数据库中的项目,采用关键词检索、分子结构检索、以及序列相同性检索中的任意一种或者2种以上进行检索,将用于连接检索的数据交叉,生成限定的分子功能网络。
9.权利要求1~6中任意一项的方法,其特征在于针对生成的分子功能网络,再次进行关键词检索、分子结构检索、序列相同性检索中的任何1种或者2种以上方法并用,生成该网络的部分网络。
10.权利要求1~6中任意一项的方法,其特征在于在生物学事件的信息中含有与关键分子的量或者质的变化相对应的波动信息。
11.权利要求1~6中任意一项的方法,其特征在于在生物学事件中含有与疾病相关的病名、病态、诊断基准以及治疗药物等信息中的任何1种或2种以上的信息。
12.权利要求1到6中任意一项的方法,其特征在于合并使用将特定的生物分子作为靶标的医药分子的信息。
13.权利要求1~6中任意一项的方法,其特征在于合并使用生物分子和基因的对应关系的信息。
14.权利要求1~6中任意一项的方法,其特征在于合并使用每种脏器的蛋白的表达信息和/或者基因表达信息。
15.权利要求1~6中任意一项的方法,其特征在于生物分子与基因多型相关的基因信息相连接。
16.权利要求1~6中任意一项的方法,其特征在于合并使用在特定的关键分子中表达被调控的基因或者蛋白质的信息。
17.推测医药分子副作用的方法,其特征在于采用权利要求12的方法。
18.推测新药靶点的方法,其特征在于使用权利要求1~16中任意一项的方法。
19.推测以特定的生物分子作为创新药物靶点时的副作用风险的方法,其特征在于使用权利要求1~16中任意一项的方法。
20.计算机系统,由用于实施权利要求1~19中任意一项的方法的程序和数据库组成。
21.计算机可以读取的媒体,记录有用于实施权利要求1~19中任意一项的方法的程序和/或数据库。
全文摘要
使用含有生物学事件信息的生物分子连锁数据库,通过连接检索,生成含有生物学事件的分子功能网络的方法、以及推测该网络中任意生物分子和任意生物学事件间的路径的方法或者推测该网络中的任意生物分子相关的生物学事件的方法。
文档编号G06F19/12GK1479900SQ01818734
公开日2004年3月3日 申请日期2001年9月10日 优先权日2000年9月12日
发明者板井昭子 申请人:株式会社医药分子设计研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1