分子功能网络的生成方法

文档序号:6463680阅读:289来源:国知局
专利名称:分子功能网络的生成方法
技术领域
本发明是关于含有生物学事件信息的生物分子数据库的制作方法和 使用方法。
背景技术
生物中存在DNA、 RNA、蛋白质、多糖等生物大分子,此外还含有 M酸、核酸、脂、糖、 一般的低分子化合物等多种分子,它们担当着各 自的功能。生物系统的特征是不仅是由多种生物分子所组成,而且以表达 功能为主的生物体内的所有现象都是通过生物分子间的特异性的结合引 起的 这种特异性的结合,不是形成共价结合,而是仅依靠分子间作用力 形成稳定的复合体。因此,生物分子各自单独存在的状态和复合体状态之 间保持着一种平衡状态。为了加大特定生物分子间复合体的稳定性,这种 平衡向复合体方向显著偏移。其结果,在很多其它分子存在的情况下,即 使在极其稀薄的浓度下,也能够识别和结合特定的对方。在酶催化反应中, 底物在和酶形成复合体的状态下,经过特定的化学转换后作为反应生成物 而释放出来;在信号传递方面,随着介质分子和靶标生物分子的结合,靶 标生物分子的构造发生改变,进而将细胞外的信号传递到细胞内部。
近年来,基因组的发展十分迅猛,以人为主的多种生物物种的基因組 序列得到解析,关于基因和基因产物-蛋白质的序列、每种脏器的蛋白质 的表达、蛋白-蛋白相互作用等基因组范围内的系统研究不断深入。其大 部分研究成果均以数椐库的形式公开供W界使用。关于基因和蛋白质的 功能、疾病的原因以及背景基因的推测、基因多型性的关系等正在一点点 阐明,人们对以遗传信息为基础的医疗和新药开发的期望不断升高。
一方面,遗传信息的栽体是核酸,但能量代谢、物质交换、信号传 导等生命功能等大多数是依靠核酸以外的分子执行。蛋白质和其它种类 的分子不同,它是以基因设计图为基础而直接产生的,其种类4艮多。酶、 小分子的生物体内生理活性化合物的靶标生物分子、蛋白质性质的生物
体内生理活性化合物的靶标生物分子(多数进行了糖修饰)全部是蛋白 质.疾病的根本原因,归根结底可以说多数疾病和症状是蛋白质和小分 子化合物的量之间的平衡、由于情况不同导致的质(功能)的异常.大 部分现行医药都是以蛋白质为靶标并对其功能进行调控的化合物.和蛋 白质不同,由于核酸的立体结构决定了它4艮难作为小分子药物的靶标而 发挥其特异性作用,因此抗生素和抗菌药或者农药的杀虫刑和抗審刑的
靶标都是蛋白质.
因此,为了对以遣传信息为基础的医疗和新葯进行开发,必须闲明 生物体内各种蛋白质和小分子化合物的功能和它们的分子间的特异性关 系.而且,不同的醉渐次生物合成相关的必要分子,不同的分子渐次结 合而传导信号,这些分子在功能和生物合成上存在直接或者间接的相互 关联.这种关联(分子功能网络)信息十分重要.此外,到目前的研究 为止,已经阐明了多种与各种临床症状、生理现象以及生物反应发生直 接相关的介质和激素等分子,与分子功能网络的关系是适当的治疗不可 缺的.此外,创新葯物的战S^喬在考虑到副作用风险之同时设定恰当的 靶标分子,因此必须考虑到含有把标分子的分子功能网络.
蛋白质相关的数据库有SwissPort(the Swiss Institute of Bioinlbrmatics, Europaen Bioinformatics Institute(EBI) 、 PIR(National Biomedical Research foundation (NBRF) ) 任何一个数据库除了含有序
列信息之外,还提供生物种类、功能、功能机制、发现者、文献、其它 注解信息.
着眼于分子关联的分子网络型的数据库有与代谢途径相关的有 KEGG (金久等,京都大学)、Biochemical Pathways(Boehringer Mannheim)、 WIT(Russian Academy of Sdences)、 Biofrontier(吴羽化 学)、Protein Pathway(AxCell) 、 bioSCOUT ( LION )、 EcoCyc(DoubleTwist)、 UM-BBD(Minnesota Univ).
KEGG的PATHWAY数据库中有新陈代谢途径和信号传导途径,前 者收集了物质代谢、能量代谢相关的一般小分子化合物的代谢途径,后 者收集了信号传导体系的蛋白质.任何一种都以静态Gif的格式提供事 先定义的分子网络.前者中,蘇和配体的信息是从另外的文本形式分子 数据库LIGAND (金夂等,京都大学)和ENZYME (IUPAC - IUBMB ) 中收录的.不包括与生理活性肽的生成相关的睐和靶标生物分子.
EcoCyc是大肠杆菌物质代谢的数据库,是以每一个酶反应相关数据 和已知途径相关数据(将属于这种途径的酶反应集中在一起进行表述) 为基础、用图形的形式表示途径.EcoCyc的检索功能是提供根据与分子 名和途径名称相对应的文字列和略号的检索方法.不能指定任意分子检 索新的途径.
信号传导相关的数据库有CSNDB (闺立医药食品卫生研究所,日 本)、SPAD(久原等,九州大学)、Gene Net( Institute of Cytology &Genetics Novosibrisk, Russia) ,GeNet(Maria G. Samsonova).
蛋白-蛋白相互作用的数据库有DIP (UCLA)、 PathCaHing (CuraGen )、 ProNet (Myriad )
基因、蛋白表达数据库有BodyMap (东京大学、大阪大学)、 SWISS-2DPAGE (Swiss Institute of Bioinfor咖tics), HumaD and边ouse 2D PAGE
database (Danish Centre 化r H咖an Geno迈e Research), HEART-2DPAGE
(Ger迈anHeart) 、 PDD Protein Disease Databases (NI瓶-NCI), Washington
University Inner Ear Protein Database (Washington Univ.), PMMA-2DPAGE
(Purkyne Military Medical Academy), Mito-Pick (CEA, Fr幼ce), Molecular
Anatony Laboratory (Indi幼a University), Human Colon Carci咖a Protein
Database (Ludwig Institute for Cancer Research)。
生物反应模拟型的分子网络数据库包括E-CeU(富田等,庆应大 学)、e E.coli (B.Palsson)、 Cell(D. Lau打enburger, MIT)、 Virtual Cell (L. Leow, Conneticut Univ.)、 Virtual patient (Entelos,Inc.),
关于生物分子和功能的关系,除了 SwissPort收集了广泛的蛋白信 息之外,COPE (University of Munich)以文本的形式公开了细胞罔子 的功能信息.ARIS((股份)日本电子计算)以医学、药学领域为中心 从大约400多家国内杂志和20家海外杂志中收录了与药品的副作用、相 互作用、农药、化学物质导致的中毒相关的文献信息.但关于生物分子 的生理作用和细胞水平以上的应答方面的数据库至今还没有.关于基因 和疾病,OMIM (NIH)对遣传疾病和蛋白质的氨基酸变异倌息进行了 收集'任何信息都以文本形式的数据记迷、用关健词进行检索.
着眼于分子间关联的已有数据库存在以下几点问趙.分子网络型数 据库是针对分子和分子间的关联已经清楚的体系制作的.可以亊先考虑
到分子间的关系进行配置,并用静态Gif等形式表现出来.可是,这种 方式造成难以添加新的分子和分子间的关联的后果.如果将今后明确其 存在的分子也包括在内大约有10万以上(在KEGG中收录的分子包括 医药分子大约有1万).而且一旦这些分子间的关系通过今后的研究查清 楚,可以推想分子网络的复杂性正以加速度的状态增加.为了适应既能 追加新分子又能够保持不断增多的分子之间关系的信息,人们需要能生 成含有必要信息的部分分子网络的新方法.
2001年9月7日至今,KEGG将分子间的关联以2个分子成对信息 的形式进行保存,使用该信息,能够探索代谢途径中的任意2个分子间 的关联途径.可是,该途径探索方法存在的问^IA随着关联2个分子间 的途径的增长,计算时间也随着级数地增长.
另一个方面,文本形式的数据库中分子数据的追加没有界限.可是,
从每个分子的数据中对功能上或者合成上相关联的分子逐个反复检索, 导致难以生成表示多个分子关联的分子网络,因此需要开发一种在检索 时,能够主动或者自动得到必要分子的关联信息的数据的保持方法和检 索方法.此外为了在分子水平上理解疾病和病况,需要有记述生物分子 及其网络与生物应答、生理作用的关系的新方法.
发明的内容
本发明的课趙提供了 一种在生物分子的功能和分子间的关系的基础 上理解多种生物应答和现象的计划和方法.具体的说是提供了一种能将 生物分子的信息和生物应答结合起来的数据库及其检索方法.而且迅速 并有效的从这些巨大的信息中抽取出任意生物应答以及生物分子相关的 信号传递途径和生物合成途径;为推测有希望的创新性葯物靶点以及副 作用风险提供一种方法,也是本发明的课题之一.
本发明者等人为了解决上述课题进行了刻苦的研究,结果发现,将 直接结合的生物分子对作为部分信息而收集起耒,由此网罗了生物分子 间的关系,针对生物分子中与生物应答的表达直接相关的关健分子,在 其与靶标生物分子的对的信息中,添加了由生理作用、生物应答、临床 症状等组成的生物学事件信息并加以保存,通it^t包含指定的1个以上 的任意生物分子以及生物学事件的关联自动逐个探索,制成分子功能网 络,解决了上述课题.
即,本发明提供了使用储存了直接结合的生物分子对相关信息的生 物分子连锁数据库生成分子功能网络的方法.根据本发明的优选方案, 能够提供使用含有生物学事件信息的生物分子连销数振库制成与生物学 亊件信息有关的分子功能网络的上述方法、使用含有与生物分子自身相 关信息的生物分子信息数据库的上述方法、以及生成含有生物学事件信 息相关的医葯分子的分子功能网络的上迷方法.此外,根据本发明还可 以提供一种推测方法,即通过使用储存有直接结合的生物分子对的相关 生物学亊件信息的生物分子连锁数据库,对任意生物分子或者医药分子 有直接或者间接关系的生物学事件进行推測的方法.并且,本发明还提 供了当生物分子是其他数据库或者文献中的基因所编码的蛋白质时,可
的数据库,使用分子功能网络分析基闳的多型性或者表达的倌息的方法, 根据本发明的更优选方案,可以提供根据网络上的相互关联、以成
组的生物分子对数据为子网络、之后,基于归属的子网络以及子网络间
的包含关系将分子功能网络层次化并且以此为特征的上述方法;还可以
提供基于分子对的归属路径名、归属子网络名等把生物分子对相关信息
层次化后加以保存,并且以此为特征的上述方法;基于基因群中的表达
模式和到达细胞表面的模式等把生物分子自身相关信息层次化后保存,
并以此为特征的上述方法;而且还能够提供基于该生物学事件的上位概
念进行的分类和病态事件的关联、把该亊件相关信息层次化保存,并以
此为特征的上述方法.并且,本发明还提供分别针对生物分子对相关的
上位层次、生物分子自身相关的上位层次、生物学事件相关的上位层次
的保存项目,保存項目间的关联性和依存关系等的相关信息并以此为特
征的上迷方法;利用生物分子信息数据库以及生物分子连锁数据库中保存的层次化信息,简便地生成分子功能网络并以此为特征的上述方法;
利用生物分子信息数据库以及生物分子连锁数椐库中所保存的层次化信 息对分子功能网络所表现的详细程度进行控制并以此为特征的上迷方法.
并且本发明提供如下所示的方法和数据库.
1. 赋予生物学事件信息和生物分子关系的方法.
2. 和生物学事件信息有关系的分子功能网络的生成方法.
3. 含有和生物学事件信息有关系的医葯分子的功能网络的生成方法.4. 对任意生物分子有直接或者间接关系的生物学亊件进行推测的方 法.
5. 使用含有生物学亊件倌息的生物分子连锁数据库,对任意的生物分 子直接或者间接相关的生物亊件进行推測的方法.
6. 使用含有生物学事件信息的生物分子连锁数据库,对任意的生物分 子相关的分子功能网络以及该分子直接或者间接相关的生物亊件进 行推测的方法.
7. 在直接结合的生物分子对信息中补加与生物亊件的发生直接相关的 关键分子和它的靶标生物分子对以及该生物学事件信息的生物分子 连锁数据库.
8. 含有源自关鍵分子的生物学事件信息的生物分子连锁数据库.
9. 含有携带生物亊件信息的关鍵分子的生物分子连锁数据库.
10. 通过生物分子连锁数振库的连接(connect)检索得到的分子功能网 络.
1,使用上述的7~9的任意一个生物分子连锁数据库,对任意生物分子 相关的分子功能网络和生物学亊件进行推测的方法,
12. 使用上述7~9的任意一个生物分子连锁数据库和医药分子连锁数据 库,对任意生物分子或医药分子相关的分子功能网络和生物学事件 进行推测的方法,
13. 含有与生物学事件信息中的关鍵分子的量或者质的变化相对应的波 动信息的上述1~12所记栽的方法或者生物分子连锁数据库以及功 能网络,
14. 含有与生物学亊件的信息中的关鍵分子的生成脏器和生物学事件的 发生脏器信息的上述1~12所记栽的方法或者生物分子连锁数据库 以及功能网络.
15. 含有与生物学亊件的信息中的关键分子的量或者质的变化相对应的
波动信息同时含有关鍵分子的生成脏器和生物学亊件的发生脏器信 息的上述1~12所记栽的方法或生物分子连锁数据库以及功能网络.
16. 通过保存直接结合的生物分子对和表明该结合关系的信息,制作与 1个以上任意生物分子在功能上或生物合成上有直接或间接关系的 分子功能网络的方法.
17. 使用直接结合的生物分子对信息的集合,对与任意生物分子在功能
上或生物合成上有直接或间接关系的关鍵分子进行探索的方法.
is.在权利要求n项中所记栽的方法的基础上对与任意生物分子有直 接或间接关系的生物学事件进行推测的方法.
19. 通过保存直接结合的生物分子对和表明该结合关系的倌息,制作表 示生物分子间在功能上或生物合成上的关系的分子功能网络的方 法,
20. 将直接结合的生物分子对和表明该结合关系的信息作为一部分保存
起耒,通过连接检索,制作与任意1个以上生物分子相关的分子功 能网络的方法.
21. 将直接结合的生物分子对和表明该结合关系的信息作为一部分保存
起耒,通过连接检索,找出与指定的1个以上的生物分子在生物合 成上以及功能上有直接或间接关系的生物分子组的方法.
22. 基于与疾病相关的生物学事件群,对与该疾病相关的分子功能网络 进行推测的方法.
23. 基于与疾病相关的生物学亊件群,对与该疾病相关的分子功能网络 进行推测,进而推测可能的创新药物靶点的方法.
24. 基于与疾病相关的生物学事件群,将与该疾病相关的分子功能网络 上的生物分子作为创新性药物靶点时,对其副作用风险进行推测的 方法.
25. 根据与某些疾病相关的分子功能网络上的任意生物分子的功能调 控,对生物学亊件的波动进行预测的方法.
26. 利用关鍵分子的量的变动和生物学事件的波动信息,辅助选定创新 性葯物把点的方法.
27. 上述26所记栽的方法中所使用的生物分子连锁数据库.
28. 含有医葯分子和靶标生物分子对的信息的生物分子连锁数据戽.
29. 添加有医药分子和靶标生物分子的对信息以及作用和副作用信息的 生物分子连锁数据库.
30. 使用添加有医药分子和靶标生物分子对的信息以及作用和副作用信 息的生物分子连锁数据库,对医葯化合物的副作用风险以及药物间 的相互作用进行推测以及回避的方法.
31,使用添加有医葯分子和靶标生物分子对的信息以及作用和副作用信 息的生物分子连锁数据库,根据需要与基因多型的信息连接、对治 疗疾病的医葯化合物进行选挣和用量设定的方法.
32. 以生物分子连镇数据库或分子功能网络中的蛋白质与基因数据库连 接为特征的上述1 31中所记栽的方法或生物分子连锁数据库或分 子功能网络.
33. 以生物分子连锁数振库或分子功能两络和基闳组序列相对应的基罔 信息连接为特征的上述1 31中所记栽的方法或生物分子连锁数据 库或分子功能网络.
34. 以生物分子连锁数据库或分子功能网络与每个脏器的蛋白的表达信 息和相对应的基因信息相连接为特征的上述1 31中的方法或生物 分子连锁数据库或分子功能网络.
35. 以生物分子连锁数据库或分子功能网络和与基因多型相关的基闳的 信息相连接为特征的上述1~31的方法以及生物分子功能网络.
36. 以生物分于连销数据库或分子功能网络与其他生物种的基因組以及 基因序列相对应的基因组或者基因信息相连接为特征的上迷1 31 的方法或者生物分子连锁数据库或分子功能网络.
37. 利用由于使用医药分子而引起的特定脏器中蛋白表达的变动信息, 对疾病的机制进行推测的上述1~31的方法或者生物分子连锁数据 库或者分子功能网络.
38. 为了分析特定疾病中常见的基因多型群的信息所使用的上迷1~31 的方法或生物分子连锁数据库或者分子功能网络.
39. 将生物分子对关系棋式化,以此为特征的上述16^21的方法或生物 分子连锁数据库或分子功能网络,
40. 将生物学亊件以模式化的形式表现,以此为特征的上述1 M的方 法或生物分子连锁数据库或分子功能网络.
41. 将与关鍵分子的量变动相对应的生物学亊件的波动信息模式化,以 此为特征的上述1^15的方法或生物分子连锁数据库或者分子功能 网络.
42. 根据需要,将2个以上的生物分子作为一个假想生物分子对待,以 此为特征的上述1~41所记栽的方法或分子连锁数据库或者分子功 能网络.
43. 将分散配置的1个以上的生物分子连锁数据库以通信手段加以利 用,以此为特征的上述1~41所记栽的方法或生物分子连锁数据库
或者分子功能网络.
4《以制作含有与生物学事件的表现直接相关的生物分子信息的数据 库,和并用不一定含有生物学亊件信息的分子功能网络的数据库为 特征的上述l一l的方法或生物分子连销数据库或者分子功能网络,
45. 从不一定含有生物学亊件信息的分子功能网络数据库中抽出与任意 分子相关的部分分子功能网络,基于构成该网络的分子,对包含与 生物学事件的表现直接相关的生物分子的方法的数据库进行检索, 以此为特征的上述1~41的方法或生物分子连锁数据库或者分子功 能网络.
46. 根据生成脏器或作用脏器等的信息,交叉(紋"込tf )作为对象的 生物分子或者生物分子对而得的生物分子连锁数据库或利用该数据 库作成的分子功能网络或生成该分子功能网络的方法.
47. 对生物分子功能数据库进行连接检索,最终生成分子功能网络,根 据各个网络所含有的生物分子和生物学事件信息等将此网络进行再 次交叉的方法或者交又后得到的分子功能网络,
48. 根据生成脏器以及作用脏器等的信息,使用以作为对象的生物分子 或生物分子对交叉而得的生物分子连锁数据库,制成分子功能网 络,根据各个网络中所含有的生物分子或者生物学亊件等的信息, 将该网络再次进行交叉的方法或再交叉后生成的分子功能网络.
49. 由实施上述1 48所记栽方法的程序和数据库组成的计算机系统.
50. 记录上述1~48所记栽的数据库的计算机可以读取的媒体。
51. 记录上述1~48所记栽的与分子功能网络相关信息的计算机可读取 的媒体.
52. 记录上述l"8所记栽的数据库和记录实施上迷1~48所记栽的程序
的计算机可读取的媒体.
53. 使层次化的生物学亊件信息和生物分子关联的方法.
54. 与层次化的生物学事件信息相关联的分子功能网络的生成方法.
55. 以将生物分子对的信息层次化并保存为特征的分子功能网络的生成 方法.
56. 以将生物分子的集合状态层次化并保存为特征的分子功能网络的生 成方法.
57. 与层次化保存的生物分子对的信息相对应的生物学事件建立关联的
方法.
58. 与层次化保存的生物分子的集合状态信息相对应的生物学亊件建立 关联的方法,
59. 以将基因群的转录信息层次化并保存为特征的分子功能网络的生成 方法.
60. 以将蛋白表达信息层次化并保存为特征的分子功能网络的生成方 法.
61. 对于数据库中的任意数据项目,基于关鍵词、数值参数、分子构造、 氨基酸序列、碱基序列等进行检索,基于该检索结果生成分子功能 网络的方法.
62. 对于制成的分子功能网络,对于其中所含的生物分子、生物分子对、 生物学亊件的数据,根据关鍵词、数值参数、分子构造、氨基酸序 列、M序列等进行检索,从而得到该网络部分集合的方法.
63. 对制成的分子功能网络,对于其中所含的生物分子、生物分子对、
生物学亊件的数据,根据关鍵词、数值参数、分子构造、氨基酸序
列、碱基序列等进行检索,强调表示该生物分子、生物分子对、生 物学事件的方法.
困的简单说明


图1是表示本发明方法的基本概念的闺.
图2是表示本发明的方法用于医药分子连锁数据库时的概念的图. 困3是表示本发明的方法用于遗传信息数据库时的概念的图. 围4是表示在实施例1中作为对象的肾素-血管紧张素系统的概念 的图.
图5表示的是实施例1中的生物分子倌息数据库内容的闺.
困6表示的是实施例1中的生物分子连销数据库内容的闺.
困7表示的是通过有关实施例1中的生物分子的检索得到的分子功 能网络图.用于提问的生物分子和生物学事件用粗体表示.
图8是表示实施例1中的医葯分于倌息数振库的内容的闺.
困9是表示实施例1中的医葯分子连锁数据库的内容的困.
图IO是表示通过有关实施例1中的医葯分子的检索所得到的分子功 能网络的图,用于提问的医药分子和生物学事件用粗体表示.
困11是表示实施例2中的分子功能网络检索 表示程序的流程图
闺U是表示实施例2中的连接检索(l点指定)的输入项目的闺.
图13是表示实施例2中的连接检索(2点指定)的输入项目的闺.
实施发明的最佳状态
在本说明书中用语的意思及其定义如下所释.
"生物"其概念包含例如细胞器、细胞、组织、脏器、生物个体 以及集合体等、寄生在生物上的生命体.
"生物学事件"的概念包括在生物中的内因以及外因所表现的所有 现象、应答、反应、症状.具体的例子如转录、细胞游走、细胞接触 附着、细胞分裂、神经回路兴奋、血管收缩、血压上升、血糖下降、发 热、痉挛、通过异种生物以及病毒等寄生物的感染及其他.此外,对于 生物外部的如光和热等物理性刺激的反应也包含在生物学亊件的概念当 中。
"病态亊件"是包含在"生物学事件"中的概念."生物学亊件"超 过了量和质上的某一阈值,即可判断为到了疾病或者病态的状态.例如 血压上升的"生物学亊件"异常亢进导致的"病态事件"就是高血压或 者高血压症,血糖不能控制在正常范围的"病态亊件"即为髙血糖或者 糖尿病.此外,不仅有与上述例示的单一生物学亊件相关的病态事件,
还有与多种生物学事件相关的病态亊件.
"生物分子"指的是在生物中存在的核酸、蛋白质、脂质、糖、一 般小分子化合物及其它结构的有机分子以及其集合体,也包括金属离子、 水、质子(proton).
"关鍵分子"主要指的是在生物分子中,介质、激素、神经递质、 自体有效物质等的分子群.巳知,在大多数情况下,在体内存在特定的 靶标生物分子,与该分子之直接结合是上述"生物学亊件"的导火索. 这些分子在生物内生成后发挥作用, 一般情况下,从生物系统外部给予 时,会发生与其量相对应的生物学亊件.具体的例子有肾上腺素、血 管紧张素II、胰岛素、雄激素等.
"靶标生物分子"指的是介质、激素、神经递质、自体有效物质等 生物分子以及医药分子的受体这样的特定分子.通过直接结合引发特定 的生物学亊件.
"生物学亊件的波动信息"指的是与关鍵分子或者靶标生物分子的
量变或者质变相对应的生物学亊件的亢进、上升或者低下.减少等的信 息.也包括当关鍵分子的量超过一定的阈值时初次引起的该生物学事件 的情况,
"分子略号"是以识别或指定分子为目的的分子名称的代称.它必 须与各个分子单一对应.可以是分子名称缩短的略称,也可以是和分子 名称无关的英文数字以及短的文字.对于巳经有在世界上使用的分子略 号的分子,希望仍使用该分子略号.对于一个分子根据不同的方式可赋 予多个略号的,可以根据结构基团和功能等进行层次化.
"直接结合"指的是不通过共价结合而是通过分子间的作用力形成 或有可能形成稳定的复合体的情况.有时会有少见的以共价的形式结合, 这种情况也包括在这个概念中.大多数情况下称为"相互作用",相互作 用这种称法^^有更广的舍义,
"生物分子对"指的是在生物中能够直接结合或推测为直接结合的
一对生物分子.具体的例子有雌二醇和雌激素受体、血管紧张素转换 酶和血管紧张素I等.在酶反应中当酶和生成物作为分子对时,不能认 为这个复合体是稳定的,但也包括在生物分子对中.此外,例如像用双 杂交的试验方法确定有相互作用的这样的2个蛋白质分子,虽然对二者 的相互作用还不明确,也可以包括在生物分子对的范畴中.对于光、声 音、温度变化、磁场、重力、压力、振动等来自生物外部的物理化学刺 激,也可以把这些刺激看作假想的生物分子,定义为与相应的靶标生物 分子的生物分子对.
"结构编码"指的是生物分子表明DNA类、RNA类、蛋白质类、 肽类、 一般小分子类等的结构特征的分类编码.
"功能编码"是表明生物分子的分子水平功能的分类编码.例如"结 构编码"为"蛋白质"这样的生物分子时,表示胰受体、核内受体、转 运蛋白、介质、水解酵、碑酸化酶、^!酸化酶等分类.当"结构编码" 为小分子类的生物分子时,表示底物、生成物、前体、活性肽、代谢产 物等分类,
"关系编码"指的是表示构成生物分子对的2个分子间的关系的分 类编码.例如象激动剂和受体是IO,蘇和底物是21,底物和生成物是 22这样进行的类型化.例如用双杂交的试验方法确定有相互作用但是 对于2个分子间的相互作用还不清楚的的2个蛋白,希望使用能够区别
该>^质的编码.
"关系功能编码"是表示和构成生物分子对的2个分子的直接结合 相伴随产生的现象和变化的分类编码.例如采用水解、碑酸化、脱裤 酸化、活化、失活等分类.
"可靠性编码"是表示每个生物分子对直接结合的可靠性水平和作 为直接结合根据的实验方法等的编码.
"连接检索"指的是指定1个以上任意生物分子或者生物学事件, 对包含其的在功能上或生物合成上相关分子的关联进行自动搜索.
"分子功能网络"指的是使用生物分子连锁数据库,指定1个以上 任意的生物分子或者生物学事件,通过连接检索得到的功能上或生物合 成上相互关联的分子的关系网.
"医药分子"指的是作为医葯制造的用于治疗的化合物分子.包括 用于医学、药学研究的化合物和专利说明书及文献所记栽的化合物等生 理活性已知的化合物.
"生物学事件信息和赋予关系"指的是某些生物学事件发生时,所 呈现或发现的某些生物分子或者医药分子或遣传信息或分子功能网的相 关情况,
"模式化"指的是对生物分子、生物分子对、生物学事件等相关的 信息进行数据库记录时,不是原封不动的记录所得到的信息,而是按照 事先规定的种类对该信息进行分类,用表示该种类的记号表示该信息. 上述的"结构编码"、"功能编码"、"关系编码"、"关系功能编码"所举 的例子即为模式化的例子.
"生成脏器"指的是生成生物分子的脏器、組织、脏器或组织内的 部位、脏器或组织内的特定细胞、细胞内的部位等.
"存在脏器"指的是储存生成后的生物分子脏器、組织、脏器或组 织内的部位、脏器或组织内的特定细胞、细胞内的部位等.
"作用脏器"指的是生物分子或关鍵分子在引发生物学亊件的脏器、 组织、脏器或组织内的部位、脏器或組织内的特定细胞、细胞内的部位 等.
作为本发明的1个实施方案,提供了以下方法(困1).首先,制作 储存有直接结合的2个生物分子对相关信息的"生物分子连锁数据库". 生物分子分子略号的赋予等、生物分子自身相关的信息也可以包含在该
数据库中,但表好用别的数据库-"生物分子倌息数据库"进行,接着, 从上述的"生物分子连锁数据库"中,指定1个以上任意分子,进行连 接检索,由此得到表现1个以上生物分子的功能上或者生物合成上关联 的"分子功能网络",
通过对与生物分子对中,至少是关健分子和它的靶标生物分子组成 的生物分子对,相对应的生物学亊件的信息赋予关联关系,与"分子功 能网络" 一起,可以对分子功能网络中的与该分子有直接或间接关系的 生物学事件进行推测.在此基础上,补加关鍵分子的量或者质的变动和 生物学亊件的波动关系的信息,对分子功能网络的任意分子的量或者质 的变动引发的生物学事件的亢进、上升或者抑制、低下等进行推测.
"生物分子信息数据库"的主要作用是对相应于各个生物分子的正
式名称的分子略号或者ID进行定义,此外保留生物分子自身的必要信 息,例如对分子名称、分子代号、结构编码、功能编码、生物种类、 生成脏器、存在脏器等相关的信息进行保存.此外,即使对试验中尚未 分离和确证存在的分子,例如,也可以对从其他生物种的试验推测存在 的分子给于假定的分子略号的其他信息,并进行定义.
"生物分子信息数据库"也可以包舍和各个生物分子的氨基酸序列 和结构相关的信息,但最好将该信息在序列数据库和结构数据库中另外 保存,根据需要用分子代号进行取用.对于生物分子中的低分子量物质,
根据需要为了能在分子功能网络的展示中添加物质的化学结构,不仅要 把正式的分子名称,还要把表示化学结构的相应数据保存在生物分子倌 息数据库或者另外的数据库中,
2个以上的生物分子的多聚体或者集合体具有活性或者功能等,将 多个生物分子集中对待比较方便时,可以将其定义为1个假想的生物分 子,赋以分子略号,在"生物分子信息数据库"中登记.这种场合,在 各种組成分子已知的情况下,也可以分别为其赋以分子略号进行登记, 在假想生物分子的记录中建立记述组成分子的分子略号文件.在不明由 何种生物分子构成的情况下,也可以作为集体,对具有特定功能的假想 的生物分子进行定义,用于生物分子对的定义中.
此外,生物分子由2个以上的结构城组成,并且由于它们各自具有 不同的功能,需要对各个结构域独立对待更好时,也可以将各个结构域 作为独立的分子进行处理.例如和原始的生物分子一起,将各个结构
域赋以分于略号,在生物分子信息数据库中登记.在最初的生物分子记
录中,建立记述分开的结构域的分子略号文件,对1个生物分子具有2 个以上不同功能进行记述.不是基因的基因组序列上的特定序列,具有 某些功能或者可以通过特定的生物分子识別时,可以将该序列部分作为 独立的生物分子对待,赋以分子略号,用于生物分子对的定义中.
生物分子对的信息保存在"生物分子连锁数据库"中.每个生物分 子对收录了组成该分子对的2个生物分子的分子略号、关系编码、关系 功能编码、可靠性编码、生物学亊件、作用脏器、共作用分子以及其他 附加信息等.对于关键分子和它的目标生物分子的分子对,泉好尽量输 入生物学事件、两分子的量或者质的变动引起的生物学事件波动的信息、 病态事件等的信息.对于关键分子以外的生物分子对,当存在与该生物 分子对的表达直接相关的生物学事件或者病态事件时,要求将该生物学 事件和病态亊件输入保存.作为关鍵分子的量或者质的变动相对应的生 物学亊件波动信息,可以是例如,和正常范闺相比,当关鍵分子增加时, 生物学亊件产生单纯的亢进或者低下等的信息.1种酶催化2种以上的
底物进行反应,分别生成不同的反应生成物时,要附加指定酶、底物和 反应生成物的关系的表现.
由于"生物分子信息数据库"和"生物分子连锁数据库"的内容和 组成不同,在本说明书中作为概念上分别独立的数据库对待.从本发明 的宗旨出发,当然也可以将2者合并为l个含有2种数据的数据库."生 物分子信息数据库"和"生物分子连锁数据库"也可分别2有个以上, 此时,可以根据各个数据库进行适当的逸摔或者结合使用.例如用特 定的档案进行区别,不同生物种数据可以同时保存在"生物分子信息数 据库"和"生物分子连锁数据库"中,也可以将人和鼠分别制作不同的 数据库进行保存.
"关系编码"可以输入成构成该生物分子对的2个分子如拮抗剂和 受体、酶和底物这样的单词.但最好用代表拮抗剂和受体关系的10,蘇 和底物关系的21、醉和生成物关系的22的方法进行类型化输入,此外, "关系功能编码"可以方便的采用水解、磷酸化、脱裤酸化、活化、失 活等功能分别加以保存的方法,但最好也进行类型化输入.
不仅有醉和底物那样相互关系明确的情况,也有例如用双杂交的 试验方法证明有蛋白-蛋白相互作用的2个蛋白分子,二者的相互作用
机制不明确的情况.对包括这样的生物分子对进行连接检索时,根据组
成生物分子对的2个分子是否有方向性而区别对待比较方便.对于各个 生物分子对,最好采用能区別属于哪种情况的关系编码,前者的情况下, 对于作用方向确定的分子对的表现中,在进行检索时只要考虑2个分子 的榆入顺序,在后者的情况下,检索时还要考虑作用方向不明的相反方 向的关系.
直接结合的生物分子对信息包括通过试验明确证明的和假定的生物 分子对等多种情况.此外,通过试验法,由于存在假阳性,也会产生错 误的生物分子对.这时,可以附加表示各个生物分子对的信息可靠性水 平和试验方法的"可靠性编码".在检索生成的分子功能网络过多的情况 下,可以组<^使用这个编码.
生物分子如果除了持有生成脏器的信息以外、还持有储存生物分子 的存在脏器以及作用脏器的信息,那么,生成分子功能网络时,例如, 很容易表现脏器生成的分子到达细胞外部后与其它细胞腹上的靶标生物 分子在细胞外发生作用的现象.最好将生物分子的生成脏器和存在脏器 的信息输入到"生物分子信息数据库"中,将作用脏器的信息输入到"生 物分子连锁数据库"中.这样,不必限定于对生成脏器、存在脏器、作 用脏器的记述,也可以包括组织、脏器或者脏器内的部位、脏器或者组 织内的特定细胞、细胞内的部位等的信息.
证实直接结合的试验和推测的方法、生物学事件的种类、关鍵分子 的量的变动相对应的生物学事件波动、细胞内的部位和组织、脏器、脏 器内的部位的表现,只要简单,任何一种都可以用.推荐使用进行类型 化、变换成短的英文数字记号等方法.如果用同义词词典进行定义,可 以用同义词同时进行处理,这样可使输入的错误最小化.
以下所示的是由"生物分子连锁数据库"生成"分子功能网络"时 进行"连接检索"的概念.本发明的"连接检索"只要能够实现这个概 念,使用任何方法都可以.例如可以利用Sedgewick的"运算法则C (近代科学社、1996)"的笫29聿中所记录的"深入优先探索"的运算 法则等.
用分子略号a~z表示生物分子,用(n, m)的形式表示由生物分 子组成的各个生物分子对,在生物分子连锁数据库中按照下面的表示方 法表示生物分子对的集合.
(a, c) (a, g) 0), f) (b, k) (c, j) (c, r) (d, v) (d, y) (e, k) (e, s) (g, u) (j, p) (k, t) (k, y) (p, q) (p, y) (x, z)
用连接检索,例如指定生成含有c和e的分子功能网络,会对共同 拥有分子对中的一个分子的分子对(c, j) (j, p)(p, y)(y, k)(k, e)逐个搜索.得到分子c、 j、 p、 y、 k、 e关联的c j p y k e分 子功能网络,
在所得到的"分子功能网络"的基础上,按照下面的方法对生物学 亊件进行推测.生物分子e是关鍵分子,当拥有该生物学事件E的倌息 时,能够推測生物分子c、 j、 p、 y、 k与发生生物学事件E的直接或间 接关系.此外,例如当分子e减少、产生E的表达亢进的生物学亊件 的波动信息时,可以对(c, j) (j, p) (p, y) (y, k) (k, e)的关系 分别加以考虑,推测c、 j、 p、 y、 k中任意分子的量或者质的变动对生 物学亊件E发生的影响.
并且,在从某个生物分子到关健分子的分子功能网络中有N个生物 分子,这些生物分子对生物学事件发生重QE的影响可以通过下面的式子 进行预测.这里的Si是笫i个生物分子的状态的质的评价值,Ri是表示 第i个生物分子的重的值,Vi是表示第i个生物分子的存在环境的评价 值,f是拥有3xN个输入值的多价函数.
Qe"(S,, R,, V"…Sn, Rn, Vn)
1个分子功能网络所关联的生物学亊件不限定为1种,此外,可以 推断出1种生物分子事件所关联的分子功能网络有数个,可将与生物学 事件的一方面有关联的分子功能网络交叉.例如指定1个以上的生物 分子生成"分子功能网络"的情况下,生成含有很多生物分子的"分子 功能网络"时,有可能添加生物学亊件倌息,"分子功能网络"的范围有 所交叉.当然,以任何一个介质分子或和该分子的靶标分子的关系作为 条件,也可以生成"分子功能网络".
此外,对"生物分子连锁数据库"的数据进行适当的分割,或者増 加筛选程序,或者抽出部分集合,或者进行层次化,都能生成必要范围 的分子功能网络.分割和增加筛选程序和抽出部分集合可以通过对本发 明数据库特有的数据项目的检索、采用关鍵词的一般性文字检索、相对
于氨基酸序列、或者核酸序列的相同性检索、化学结构式的部分结构检 索等检索方法进行.事先对"生物分子连锁数据库"或者"生物分子情 报数据库"进行这些检索,可以生成加以限定的分子功能网络和赋以特
征的分子功能网络.例如使用生成脏器和作用脏器的信息,从在肝脏 生成的生物分子,在皮肤引发生物学亊件的角度出发,制作交叉的部分 数据库,来用连接检索,可以生成限定范围的"分子功能网络".此外, 针对通过连接检索所生成的分子功能网络,对其中包含的生物分子或者 生物分子对进行上述的检索,通过分割、筛选程序和抽出部分集合,又 可以生成含有所希望特征的分子功能网络和所希望范围的分子功能网 络.这样限定和赋以特征,不仅方便检索,而且在分子功能网络上可以 对特定的生物分子群和生物分子对进行强调表示,有助于有效地理解分 子功能网络.
"生物分子连锁数据库"的分割、筛选程序和抽出部分集合,可根 据网络的关联視情况进行,保存并利用表示该包含关系的倌息,可以使 "分子功能网络"进行层次化.即使舍有一部分尚未阐明的分子和分子 间的关系,也可以将其整理收集作为1个假想的生物分子与其他分子作 为分子对进行定义,进而生成假定的分子功能网络.当所含的分子数目 过多,生成的网络过于复杂时,可以在网络上将连接的2个以上的生物 分子群定义为假定的l个生物分子,实现网络的简化.
通过这样利用层次化,可以实现连接检索的高速化,还可以对网络 展示的详细程度进行调节,适当的回避过度复杂.在本说明书中,把在 网络上连接的由2个以上的生物分子对组成的部分网络称为"子网络".
可以指定任意部分的网络作为子网络,优选代谢系统中的TCA循环 和礴酸戊糖循环这样研究人员所熟知的级联反应、途径、循环等作为子 网络更为便利.此外,即使某些子网络包含有其他的子网络也可以,例 如代谢系统自身可以视为是含有多个子网络的上位子网络.
也有把各个子网络作为一个假想生物分子的处理方法,但将与构成 子网络的生物分子对和子网络阶层相关的倌息保存在"生物分子连锁网 络"中更为方便,此外在"生物分子连锁网络"中建立表示子网络的上 位数据层,也可以在此处对该子网络的信息加以保存.生物分子对的子 网络的层次化不限定为2层,将多个子网络的集合^M "为上位子网络也 可以,在生成分子功能网络时,为了便于每个分子对的数据和上位阶层
的子网络之间的相互参照,最好将表示每个分子对的数据与各个子网络 数据之间的相互关联的信息进行归纳.即使1个分子对与多个子网络有 关也没有关系.
优逸地,层次化的"生物分子连锁数据库"的子网络数据中,不仅 要求含有和下位阶层的生物分子对的关联,而且还要含有子网络间的相
互关联的信息.例如在代谢体系中,糖解系统和TCA循环是连续作用
的子网络,可以将这些子网络间的关系在上位阶层中作为"对"的关系
保存起来.这种情况下,优选地,不仅要求有子网络对的信息,而且要
求添加作为子网络间的连接点的生物分子的信息.
此外,本发明的特征是除网络可层次化外,生物分子本身也能层次
化,可以将此信息^萍在"生物分子信息数据库"中而加以利用.为了
快速检索和方便多样地展示网络,最好将生物分子的倌息和生物分子对
的信息双方都进行层次化.把生物分子作为层次化的对象,举例如下.
在生物分子中,多种不同的分子特异聚集后会表现出某些功能.很多时
候分子聚集状态的差別会控制功能展现的状态和类型.此外,以免疫细
胞等为例,有时,细胞表面表达的多个分子的组合,控制着和生物学事
件的关联和细胞的功能,这种情况下,可以采用将上迷的分子集合状态
假定为1个假想的生物分子的处理方法.其他的方法还有,为了表示"生
物分子信息数据库"中的分子集合状态,可以建立上位数据层,并将该
集合状态的信息收集于此.优选地,在生成分子功能网络时,为了便于
生物分子数据和上位阶层数据进行相互参照,可以将表示生物分子数据
和上位阶层数据关联的信息分別进行归纳.即使1个生物分子和多个上
位阶层数据相关也没有关系.
有很多和特定生物分子对没有相互关联的生物学事件、病态亊件.
例如生物学亊件、病态事件和某些子网络的形成之间的关系巳经清楚, 但该事件的直接的生物分子对尚有未知的情况.在这样的情况下,利用 上述生物分子对数据的层次化,可以将生物学事件和病态亊件和生物分 子对的上位阶层的子网络的数据联系起来,对该事件和生物分子网络的 关系进行记迷.
此外,某些生物学事件、病态事件的发生和特定分子的集合状态、 到达细胞表面的特定分子的表达状态相关的情况下,利用上述分子集合 状态和分子表达状态的层次化,将生物学事件、病态事件和分子集合状
态以及分子表达状态的阶层数据联系起来,可以对该事件和生物分子网 络的关系进行记述.
另外,也存在某些生物学事件、病态事件和特定的生物分子对和子 网络没有任何关联的相关的情况.作为这样的例子,炎症性细胞因子的 游离、白细胞向组织的浸润、毛细血管的通透性提高等各种各样的生物 学事件组合在一起引起了 "炎症"这种病态事件.为了处理这样的事件, 将生物学事件、病态事件层次化,在下位阶层中记迷与生物分子对和子 网络相关的事件,最好在上位阶层中对与下层事件相关而引起的事件进
行记述.这样的层次化中,即使使用包括2个层次以上的层次构造也没 有关系,为了便于各个阶层间的事件进行相互参照,最好在各个阶层的 事件数据中收集表示上下阶层的数据关联的信息.这样,通过对生物学 亊件、病态亊件的信息进行层次化,也可以记述对特定的生物分子对和 子网络没有直接关系的亊件与分子功能网络的关系.
如上所示,对"生物分子信息数据库"以及"生物分子连锁数据库" 的数据进行层次化,并且保存起来,可以有效的生成多种用途的分子功 能网络,
为了对在糖解体系中存在的某些生物分子(分子A)和某些激酶级 联反应中存在的某些蛋白(分子B)的关联进行研究,采用未层次化数 据的方法时,必须要以巨大数目的分子对为对象进行连接检索,分子A 和分子B之间的路径很长的情况下,这种检索事实上不可能实现. 一方 面,若采用层次化的数据,对"糖解系统"这个子网络和"茱些激蘇级 联"这个子网络之间的关联在子网络上位阶层进行连接检索,在发现上 位阶层的路径时,根据需要可以在路径上的各子网络的下位阶层进行连 接检索,这样一来,通过把路径探索问题分割成不同阶层的问趙,可以 生成在不采用层次化时不可能生成的分子功能网络.
另外,上述利用层次化数据进行连接检索中,需要频繁的参照特定 的子网络时,可以在该子网络内部先进行连接检索,将该子网络内部的 分子功能网络信息保存下来.通过这样的处理,能够更有效率的生成完 整的分子功能网络.
另外,例如生成和"炎症"这样的病态事件相关的分子功能网络时, 可以对"炎症"上位阶层亊件相关的下位阶层事件进行探索,从该下位 阶层亊件相关的生物分子对或者子网络出发,进行连接检索,进而可以
生成包括范围更广的分子功能网络.
如上所述,根据本发明从生物分子间的直接結合关系倌息出发,可 以生成和任意分子相关的分子功能网络.更加容易对直接或者间接相关 的生物学事件和病态事件进行推測.此外,本发明的另外一方面,从以 疾病为特征而表现的生物学亊件和病态事件、生物分子的量变化等知识 出发,对和疾病关联可能性髙的分子功能网络进行选择,将其用于推测 疾病的分子机制的目的,此外,根据本发明,有可能构成在特定的疾病 和症状的治疗中,阻断网络的哪个过程有效,网络中的哪个分子作为创 新性药物靶点(医药开发中作为标靶的蛋白质或者其他生物分子)有希 望,根据创新性药物靶点可以预想到的副作用有哪些?在回遊这些副作
用方面用哪种检测(assay)体系来进行候选开发葯物的筛选等提供创新 药物的战略.
医药分子通常在体内和以蛋白质为主的生物大分子相结合,通过调 控其功能发挥药理活性,对这些分子的作用进行了比生物分子的作用更 为详细的研究,在对象疾病的分子机理的阐明中起作用,在这里,着眼 于将允许制造的用于医疗的医药分子和药理学研究等的葯物分子及其靶 标生物分子的成对关系添加到上迷的生物分子以及生物分子间的信息 中,由此提高本发明方法的有用性.靶标生物分子在大多数情况下是被 蛋白质或者糖等修饰的蛋白质.从含有靶标生物分子的分子功能网络出 发可以对与副作用有关的生物学事件进行推测.根据与并用的药物的相 关分子功能网络的交叉,有可能对药物间的相互作用进行推测.其结果, 有可能对考虑副作用的风险和药物间的相互作用风险的药物进行选择和 用量的设定.
以下对在本发明中添加医药分子和靶标生物分子对的关系的方法举 例说明。针对医药分子的正式名称,对分于略号进行定义,对该分子相 关的所有信息进行收录,制成"医药分子相信数据库".在这里,对医药 分子的名称、分子略号、适用疾病、用量、靶标分子及其它信息进行保 存.和生物分子信息数据库的的情况一样,医药分子的化学结构、4MI> 酸序列(肽或蛋白质的情况下)、立体结构等的信息包括在"医药分子信 息数据库"中,但最好保存在其它的数据库中.为了区别医药分子和生 物分子、蛋白质和小分子等,可以用结构编码等进行区别,也可以采用 第1个文字即可以进行区别的分子略号.并且,参照医药的附加说明书
和其他文献,输入药物的显著副作用、和其它药物的相互作用、代谢醉 的情况等,有助于根据分子功能网络,对和基因多型有关的葯物进行适 当的选棒.
进一步,作成含有医药分子和靶标蛋白质对之间的关系的信息的数 据库"医葯分子连锁数据库",保存医葯分子的分子略号、耗标生物分子 的分子略号、关系编码、药理作用、适用疾病以及其他信息.对于把标 生物分子的分子略号,必须采用在生物分子信息数据库中定义的分子略 号.对于关系编码等生物分子连锁数据库共同的数据项目,可以按照生 物分子连锁数据库的标记方法使用.
制作"医药分子信息数据库"和"医药分子连锁数据库",通过摘取
医药分子以及医葯分子对的信息,可以按照困2所示对本发明的方法进 行扩充.这里通过连接检索,生成分子功能网络和推测生物学事件等, 采用上迷只用生物分子连锁数振库和生物分子倌息数据库情况下相同的 方法进行,能够同时得到以该网络上的分子作为靶标的现有医药分子的 信息.此外,可以从只用生物分子连锁数据库和生物分子信息数据库就 作成的分子功能网络中,抽取和指定医药分子相关的分子功能网络,有 目的的加以利用.
一方面,以人类基因組分析为主的从多个角度对遣传信息的分析正 在iSti4itJL基因组范围内的cDNA分离、orf (open reading frame, 可读根)和基罔序列的W明不断深入,各个基闳在基因組上的定位也在 进行.这里,作为本发明的另一方案,可以制成对生物分子中的蛋白质 分子略号和编码该蛋白质基因的名称、略称、ID及其他倌息赋以关联的
生物分子基因数据库,并如下所示对本发明的方法进行扩充.即,根据 基因和生物分子的对应关系,可以从分子功能网络上的分子以及生物学 亊件关联的方面,对疾病标记基闳和蛋白所含的意义、疾病和基罔多型 的关系等知识进行理解.最好在生物分子-基因数据库中,在含有生物 种、基因组上的位置、基因序列、功能以外、还含有基因多型的氨基酸 变异和略称、功能的关联等信息,根据需要可以生成2个以上的数据库.
根据在基因组序列上定位的基因名称和基因的排列,明确了通过特 定的关键分子作用于核内受体而转录产生的蛋白,有可能将生物分子间 相互调控的关系反映到分子功能网络中,此外,已经知道脏器所表达的 基因和蛋白是不同的,根据本发明的方法,将这些表达信息收取到"生物分子信息数据库"中,可以生成各个脏器不同的"分子功能网络".例
如可以对在不同的脏器中的以核内受体为靶标的医葯分子的作用有差 异或相反的现象进行说明.此外,已经知道,使用医药分子的情况下, 蛋白表达发生变化的事实,根据本发明的方法,可以在与耗标生物分子 相关的分子功能网络上对每个表达蛋白重的増减进行解释,对考虑到基 因的多型性的药物的选择m^用处.
在^M"上迷的基因转录和蛋白表达的信息时,也可以利用层次化的 概念,生成更有效并且范围广的分子功能网络.例如针对通过特定的 核内受体而转录、表达的多个基因、蛋白质,在"生物分子信息数据库" 中设定表示基因群的转录、蛋白群的表达的上位阶层,并将该基因群、 该蛋白群的数据保存于此即可.在存在该基闳群的转录和该蛋白群的表 达相关的生物学亊件、病态事件的情况下,通过在"生物分子连锁数据 库"中记录该基因群和该蛋白群的上层阶层数据和该事件的关联关系, 可以生成不表示每个基因、分子和该亊件之间的关联的分子功能网络.
在上述的基因转录和蛋白表达的信息层次化保存方法中,当对该基 因群的每个基因或者该蛋白群的每个蛋白的转录或者表达的量的信息清 楚的情况下,将这些信息都作为数值^t在"生物分子倌息数据库"中 保存即可.通过利用这些数值参数,根据每个基因的转录量或者每个蛋 白的表达量的差异,可以对相关的生物学亊件、病态事件的变化情况进 行记录,
此外,随着对基因组和基因的个体多样性的阐明不断进展,通过将 这些信息和本发明的方法进行连接,可以推动对个体差异的理解,使建 立在个体差异上的治疗成为可能.对于特定的生物分子(蛋白质)的功 能受到损害的基因多型,通过在分子功能网络上进行说明,可以推测对 生物学事件的影响'将由于l个基因的缺损或者异常引发的遣传性疾病
的症状,以及生物学亊件异常的信息与本发明的方法连接,也有助于对 其的理解.
据报道,在几个有代表性的疾病中,存在有各个疾病的患者中高頻 出现的多个基闳、疾病背景基闳.假定实际上存在易患特定疾病相关的 遣传体质的情况下,例如与血压调节相关的分子功能网络有2个以上, 因其中任何一个网络中的任何分子异常,出现相当数量的高血压背景的 基因,也是可以理解.为了解释这样的多基因问趙,本发明的方法是不
可缺少的.
此外,近年来,小鼠、大鼠等动物的基罔组和基闳的分析工作迅速 进展,并且对人的基闳组和基闳进行了对应关联工作.虽然认为这些动 物的和人的生理功能调节相关的蛋白具有相当大的相似性,但是由于存 在相当大的差异,妨碍了医葯开发,在己知这些动物和人之间蛋白和蛋 白功能存在很大的差异的情况下,通过与本方法连接,可以搞清楚和人 的分子功能网络的差异,继而有助于医药开发.而且, 一般,对于开发 用于人的医药转用到动物的很多葯物,可以根据^^当的目的进行使用.
在医药开发中,存在有和人的疾病以及病态相似的病态动物.以这 种动物的药理活性作为指标进行开发的情况很多.这样的病态动物的基 因研究也不断深入,根据本发明的方法,可以和人的遣传倌息进行对照, 有助于对人的这种疾病的机理进行解释.
并且,为了明确基因功能,大多数是采用作成特定基因受到破坏的 基因敲除动物和基因功能变弱、基因过度表达的转基因动物的方法,据 说这些动物,很多时候会由于产生致死性而无法出生或者对生理功能和 行动看不出任何影响的情况,对出生的动物观察其有何异常时,这些动 物试验的结果分析也非常困难.在这样的试验中,使用本发明的方法, 因可以对该基因操作的影响进行预测,而便于功能的分析.
基因相关信息和分析的进展一起推动从序列ID角度进行统一的尝 试,并且推动了在基因组的序列上对基因进行定位的尝试.也有人认为 考虑到和上迷的"生物分子连锁数据库"的联合关系,构筑独立的遣传 信息数据库,可以用于上述目的,但考虑到这項信息量的扩充和公开的 方向,可以根据本发明的方法随时将将来公开的倌息收录进来,上迷方 法的实施可行性很高(图3).
采用本发明方法的生物分子连锁数据库,并非一定需要在同一个场
所管理、保存,可以根据统一分子略号,对在不同场所管理、保存的1
个以上的生物分子连锁数振戽,适当逸摔,以通信手段,使之接续使用.
不仅是生物分子连锁数据库,使用本发明的方法的生物分子信息数据库、
医药分子连锁数据库、医药分子信息数据库、遣传信息数据库也可以采
用同样的处理方法.
作为本发明的实施的其他方案,提供了制作含有生物学亊件发生直 接相关的生物分子和该生物学事件的信息的数振库(生物学事件-生物 分子数据库),并和不一定含有生物学事件信息的分子网^lt据库并用的 方法.其他方案还有,提供了一种方法,该方法从不一定含有生物学事 件信息的分子网络数据库中,抽出与任意分子相关的部分分子网络,基 于构成该网络的分子,对上述生物学事件生物分子数据库进行检索.
本发明的实施的其他方案还有,针对"生物分子倌息数据库"、"生 物连锁数据库"、"医葯分子信息数据库"、"医葯分子连锁数据库"、"生 物分子-基因数据库"等各个数据項目,进行关键词、数值参数、分子 结构、氨基酸序列、械基序列等的检索,提供基于该检索结果生成分子 功能网络的方法,以下,举出基于检索生成分子功能网络的例子进行悦 明,不过本发明的范围并不仅仅限于例子中.
在各个数据库中,分子名称、分子略号、生物种类、生成脏器、存 在脏器等各种信息以文本的形式保存.针对这些文本,基于文字序列完 全一致、部分一致进行检索,可以得到交叉的生物分子、生物分子对、 生物学亊件、病态亊件、医药分子、医药分子-生物分子对、基因-蛋
白的相应数据.基于这些交叉的信息,对连接检索的起点和终点进行设 定,利用连接检索,可以縮小作为对象的分子对的范围,有可能生成符 合使用目的的分子功能网络.
对"医药分子信息数据库"中的医葯分子的化学机构、立体结构进 行保存时,通过基于与这些相对应的全部结构一致、部分结构一致、结 构相似性等进行检索,可以得到交叉的医药分子数据.基于交又的医药
分子,生成与该医药分子相关的分子功能网络.可以对该医药分子相关 的生物学事件、病态事件进行检索.
在"生物分子信息数据库"中,保存基因转录、蛋白表达等的数值 参数时,基于这项数值参数进行检索,根据基因的转录量、蛋白表达量 可以生成相应的分子功能网络.
将蛋白氨基酸序列保存到"生物分子倌息数据"或相关联的数据库
中时,基于相对于这些氨基酸序列的同源性和部分序列类型的一致性进
行检索,可使生物分子交叉而能生成基于该生物分子的分子功能网络.
对于功能未知的蛋白质及其部分序列信息,这个方法可以对与该蛋白质 相关的可能性高的分子功能网络进衧推測,进一步还可以推测该蛋白的功能.
将蛋白相对应的基因的械基序列保存到"生物分子信息数据库"、"生
物分子-基因数据库"或关连数据库中时,基于与这些碱基序列相对应 的序列同源性和部分序列类型的一致性进行检索,可使生物分子交叉, 继而生成有关该生物分子的分子功能网络.对于功能未知的基因及其部 分的序列信息,用这个方法,可以对与该基因翻译得到的蛋白相关的可 能性髙的分子功能网络进行推测,进一步还可以有效推测该蛋白的功能.
实施本发明的其他方案包括,提供了为了实施本发明的方法的由程 序和数据库组成的计算机系统、记录为了实施本发明的方法的程序和数 据的计算机可以读取的媒体、记录为了在本发明的方法中使用的数挺库 的计算机可以读取的媒体、记录根据本发明的方法生成的分子功能网络 相关的信息的计算机可以读取的媒体等等.
总结本发明的方法的特征,如下所示
-包括生物学亊件信息、通过储存直接结合生物分子对的信息,做 成生物内的分子间的相关数据库.
-由部分集合的上述数据库中进行连接检索,作成与任意的生物分 子以及生物学事件相关的分子功能网络.
-基于分子功能网络,对任意的分子直接间接相关的生物学事件进 行推测.
-从带有生物学亊件信息的分子功能网络,对疾病的机理、可能的 创新药物作用的靶点、副作用风险等进行推测.
-从生物分子的量或者质的变动中对生物学事件的波动进行推测.
-含有生物分子的生成脏器、存在脏器以及作用脏器的信息的分子 功能网络.
-使用医药分子信息和分子功能网络对副作用、药物之间的相互作 用进行推测,
-在分子功能网络上对由于使用医葯分子导致的蛋白表达的变化进 行解释.
-根据和遣传信息的连接对基因多型对分子功能网络的影响、疾病 背景基因等进行分析.
实施例
以下,通过实施例对本发明进行进一步具体的说明,不过不限定本 发明的范围.
实施例1
举例说明生成关于肾素-血管紧张素体系的分子功能网络.肾素— 血管紧张素体系是调节生物中血压的主要机构之一,很多相关的生物分
子已经阐明(笫4图).对于到目前为止已知的与肾素-血管紧张素体系 相关的生物分子,作成生物分子信息数据库(笫5闺)和生物分子连锁 数据库(笫6困),将生物分子和生物学亊件作为问J^提出,进行分子功 能网络生成的尝试,
笫7困所示是以生物分子之一的"血管紧张素r和生物学事件之一
的"血压上升"作为问题提出而生成的分子功能网络.在生物分子连锁 数据库中进行连接检索,得到了从"血管紧张素I"到"血压上升"的 相关生物分子,并且振此制作成分子功能网络.
此外,制作具有血压下降作用的医药分子相关的医药分子信息数椐
库(第8图)和医葯分子连销数据库(笫9闺),将其与生物分子倌息数 据库(笫5困)以及生物分子连销数据库(笫6困)并用,进行医葯分 子相关的分子功能网络生成的尝试.
笫10图表示的是的以一种医药分子依那普利和"血压上升"这个生 物学亊件作为问题提出而生成的分子功能网络.因为依那普利对与其直
接结合的血管紧张素转换酶有阻碍关系,故而阻断了和血管紧张素转换
蘇有直接结合关系(睐-底物关系)的血管紧张素n的连锁关系,所以
表现出其下游的、网络上存在的"血压上升"事件被抑制(停止). 实施例2
本实施例是将本发明作为检索以;Mi示分子功能网络的程序而实现 的例子.笫ii困表示的是检索和表示本实施例的流程图.这些步棟,只 是表示将本发明作为程序而实现的例子,这个例子不限定本发明的范围.
本程序由以下步稞组成为了得到进行连接检索所必须的分子名、 子网络以及生物学事件名等进行的检索1101-1103步;进行连接检索、 表示分子功能网络的1104^1108步;以及对生成的分子功能网络进行再 处理而添加的1109~1110步.
使用者首先在1101步碟中指定与分子名、分子略号、子网络名、生 物学亊件名、病态事件名、疾病名、氨基酸序列、核酸械基序列、外部
数据库ID、医药分子结构等相关的检索方法,输入提问的文字.作为检 索方法,使用者可选择使用针对上述项目进行个别检索的方法,和针对 多个项目的采用共同的提问文字列进行检索的方法等.提问文字,也可 以不是和数据库中的数据項目完全一致的文字,也可以是含有表示名字 的一部分的文字和所谓通配符文字等的文字.当指定蛋白质的氨基酸序 列或者核酸碱基序列为检索項目时,作为提问文字,使用者可以榆入表 示氨基酸序列或者碱基序列的文字代码(例丙氨酸-A、甘氨酸-G、 乌嘌呤-g、胞嘧啶-c等)的文字.指定医葯分子结构为检索项目时, 使用者可以输入以MOLFILE形式表现提问分子结构的数据.
对于使用者输入的检索項目,程序在步稞1102中对生物分子信息数 据库、生物分子连锁数据库以及相关的数据库的数据项目,通过关健词 检索、分子结构检索、序列检索等方法进行检索.关鍵词检索不仅允许 文字列完全一致、还允许和文字列部分一致,和按照通配符与多个文字 列相一致.步脒1101中,当指定M酸序列或者减基序列为检索项目时, 程序针对生物分子信息数据库以及相关的序列数据库中的M酸序列、 碱基序列,根据和提问文字列(序列)的一致程度和相同性进行检索, 给出一致度和相同性高的序列的ID或者相对应的分子名作为检索结果. 当指定医药分子结构为提问项目时,程序根据部分结构匹配("T^^y夕) 的方法对部分结构一致或者类似的医药分子进行检索,给出相应的医葯 分子名作为检索结果.
在步驟1102中检索得到的命中(t-卜)項目在步骤1103中用列表 的形式表示.程序根据对列表中的位置进行区分的方法和赋予困标(7 4 3》)的方法等区别表示列表中的各个命中项目、分子名、子网络、 生物学亊件名的每个相应的位置.
其次,使用者在步棵U04中指定连接检索方法和作为检索端点的分 子名、子网络名以及生物分子事件名(包括病态事件).在本实施例中, 提供指定1点,并对其周边相关的网络进行检索的方法和指定2点检索 联系二者的网络的检索方法,在笫12围和笫l3闺中分别表示了这2个 检索方法所必须输入的项目.使用者根据从步骤U03所示的列表中选择 适当的项目,榆入分子名、子网络名以及生物学事件名.当列表中没有 适合的项目时,使用者可以返回到步稞1101重新输入检索項目,重复从 步稞1101到1103步稞的检索步騍,直到找到适合的项目为止.
在步稞1105中,使用者榆入连接检索的限定条件.限定条件可以指 定生成的分子功能网络中所含的分子数的上限和在2点间检索时该2点 间的相关数(路径数)的上限.在步脒1106中,使用者指定检索得到的 分子功能网络的表示方法.表示方法可以选择如对组成网络的全部分子 进行明示的方法(分子网络表示法),和将所属分子在子网络中进行归纳, 使之成为一个节点的表示方法(子网络表示法)等,使用者可以从多种 方法中进行选择.
根据从步骤1104到步骤1105指定的条件,程序在步驟1107对生物 分子连锁数据库进行连接检索.检索得到的分子功能网络,使用者根据 在步脒1106中指定的表示方法,在步碟1108中表示为^^有分子、子网 络或者生物学亊件作为节点的组.
使用者在对步驟1108中所展示的分子功能网络进行枧觉检测时,根 据需要有时可返回到1104变更连接检索的条件,反复检索,有时也可返 回到步骤1101,重复进行分子名、子网络以及生物学事件名的检索.
此外,根据本程序中附加的步骤1109以及步稞1110,可以对生成的 分子功能网络进行再次处理.在步骤1109中,使用者可以进行多个分子 功能网络间的理论计算.为了实施步骤1109,将进行到步骤1108的步骤
反复进行多次是生成多个分子功能网络所必须的 针对这些多个分子功 能网络,程序可以求得网络间的共同部WAND演算)和非共同部射XOR
演算),或者得到多个网络的总的集合(OR演算).这个功能对于调查 不同的生物种和脏器间的分子功能网络的差异等有用.
步寐1110中,便用者针对生成的分子功能网络,再次进行交叉检索, 对该分子功能网络中的分子和部分网络可以强调表示,或者抽出来表示. 这种交叉检索可以用在步媒1101~1103的任何一步所用的方法中.根据 步碌1110,例如对于在特定的脏器表达的生物分子,可以在分子功能 网络中强调表示,或者从范围广泛的分子功能网络中只抽出属于指定的 子网络的进行表示.
产业上利用的可能性
作为包舍有生物学事件的生物分子对信息的集合,本发明的生物分 子连锁数据库,通过检索生成该分子间在必要范围内的功能上或者生物 合成上有关联的分子功能网络,可用于对与任意生物分子的表达有直接
或者间接关系的生物学事件进行推测,此外,通过与医药分子的信息以 及遣传信息相连接,能够得到基于新药开发和个体差异的医疗上必要的 知识.
权利要求
1. 基因表达信息的分析方法,包括测定基因表达量的变化,将通过测定而得到的基因表达信息反映到分子网络中并进行解释。
2. 权利要求1所述的基因表达信息的分析方法,所述分子网络A^ 于测定的基因而制作的分子网络。
3. 蛋白质表达信息的分析方法,包括测定蛋白质表达量的变化, 将通过测定而得到的蛋白质表达信息反映到分子网络中并进行解释。
4. 权利要求3所述的蛋白质表达信息的分析方法,所述分子网络是 基于测定的蛋白质而制作的分子网络。
5. 生物分子分析方法,包括测定生物分子的量或者质的变化, 制作分子网络并进行解释,所述分子网络是与确认了量或者质的变化的生物分子相关的分子网络。
6. 权利要求5所述的生物分子分析方法,其中,所迷生物分子M 因、核酸、蛋白质或糖蛋白。
7. 权利要求5所述的生物分子分析方法,其中,所述生物分子的分 析是与所述生物分子相关的其它生物分子、生物学事件、信号传递途径、 或代谢途径的分析。
8. 权利要求5所述的生物分子分析方法,其中,生物分子的量或者 质的变化是通过给予药物而进行的。
9. 药物作用的推测方法,包括测定通过给予药物而进行的生物分子 的量或者质的变化,制作分子网络并进行解释,所述分子网络是与确认了量或者质的变化 的生物分子相关的分子网络。
10. 权利要求9所述的药物作用的推测方法,其中,所述药物作用的推测是上述药物副作用风险的推测。
11. 权利要求6所述的药物作用的推测方法,所迷药物作用的推测是 并用药物间相互作用的推测,相对于并用的各药物,分别制作分子网络并交叉,所迷分子网络是与 确认了变化的生物分子相关的分子网络。
12. 权利要求9所迷的药物作用的推测方法,其中,所述药物作用是 与所述药物相关的生物学事件。
13. 疾病机制的推测方法,包括测定通过给予药物而进行的生物分子 的量或者质的变化,制作分子网络并进行解释,所述分子网络是与确认了量或者质的变化 的生物分子相关的分子网络。
14. 疾病的分子机制的推测方法,包括分析以疾病表现的生物学事 件、病态事件、或生物分子的量变化,将上述生物学事件、上述病态事件、或上述生物分子的量变化反映到 分子网络中并进行解释。
15. 创新性药物靶点的推测方法,包括分析以疾病表现的生物学事 件、病态事件、或生物分子的量变化,将上迷生物学事件、上述病态事件、或上述生物分子的量变化反映到 分子网络中并进行解释。
16. 功能未知的基因或功能未知的蛋白质的功能推测方法,包括分析 功能未知的基因的碱基序列或其部分序列、或功能未知的蛋白质的氨基酸 序列或其部分序列,相对于上述序列,检索具有同源性的生物分子、或与上述序列的部分 序列类型一致的生物分子,制作分子网络并进行解释,所述分子网络是与通过检索而得到的上迷 生物分子相关的分子网络。
全文摘要
使用含有生物学事件信息的生物分子连锁数据库,通过连接检索,生成含有生物学事件的分子功能网络的方法、以及推测该网络中任意生物分子和任意生物学事件间的路径的方法或者推测该网络中的任意生物分子相关的生物学事件的方法。
文档编号G06F19/18GK101382971SQ20081010945
公开日2009年3月11日 申请日期2001年9月10日 优先权日2000年9月12日
发明者板井昭子 申请人:株式会社医药分子设计研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1