虚拟筛选装置及虚拟筛选方法

文档序号:6478865阅读:3041来源:国知局
专利名称:虚拟筛选装置及虚拟筛选方法
技术领域
本发明涉及虚拟筛选装置及虚拟筛选方法。
背景技术
目前,存在由试剂提供公司等出售的医药品相应化合物及试剂化合物等化合物。 另外,作为与化合物相互作用的高分子,存在通过以质谱分析为主的各种实验等确认的高 分子及通过收录于例如以Nature及Science为代表的杂志的文献等而被社会认知的高分 子等这样的、与研制的医药品等化合物相互作用而治愈动植物的疾病状态及患病状态、减 轻症状或维持现状等的药物目标蛋白、药物目标核酸、药物目标糖质及药物目标脂质等目 标高分子。在进行对目标高分子的低分子化合物对接和虚拟筛选时,目前,使收纳有大量如 上所述的医药品候选化合物等化合物的化合物数据库的各化合物与例如以蛋白为主体的 目标高分子蛋白进行对接相互作用,确定相当于现实存在的几十万个化合物的化合物与目 标蛋白直接相互作用的坐标配置(构象),获得相互作用能量及与其相当的分值。而且,将 该分值作为稳定性的指标,从大到小排列,确定化合物_药物目标蛋白的相互作用的顺序。例如,在Kuntz 等的 Dock(参照 Ewing 等人著 J Comput AidedMol Des. 2001 15(5)411-28)、Goodsell 等的 AutoDock(参照 Goodsell 等人著 J. Mol. Recognit 1996 9 1-5)、Gareth 等的 GOLD (参照 Jones 等人著 J. Mol. Biol. 1997 267,727-748)、Rarey 等的 FlexX、Nicolas等的Flagment Potential等现有方法中,为了计算上述分值,在各个方法 中,使用作为目标高分子的目标蛋白的配体结合环境的网格信息、及重视化合物和目标高 分子间的向量的化合物的多点信息进行计算。即,即使在目标蛋白的生物学环境等方面下一些功夫,也基于网格信息及多点信 息等信息,由化合物的原子和构成目标高分子蛋白的原子的经典物理学的原子间势式计算 相互作用能量等,通过分值确定关于化合物的构象及相互作用的键的强度的顺序。另外,为 了确定相互作用的顺序,对相互作用的各种化合物的构象使用聚类等方法来确定顺序等。但是,在现有的虚拟筛选方法中,着眼于精度良好地预测蛋白_配体复合物,具有 与直接选出众多“中的”(hit)化合物不一致的问题点。另外,在现有的虚拟筛选方法中,使用经典物理学的势函数进行非经验性的预测, 存在不能进行将生物化学实验等的信息考虑在内的预测效率高的筛选的问题。本发明是鉴于上述情况而完成的发明,其目的在于,提供虚拟筛选装置及虚拟筛 选方法,所述虚拟筛选装置及虚拟筛选方法可精度良好地预测蛋白和化合物的结合,并且 可选出众多“中的”化合物,另外,还可提高预测效率。

发明内容
本申请发明人鉴于在公开数据库中注册有通过X射线分析、NMR、电子射线分析、 高分辨率电子显微镜照片等实验得到的显示化合物和目标高分子的相互作用的庞大的三
6维坐标信息、及近年来的计算机的性能提高和生物信息学的进步等,得到如下构思代之以 现有的通常进行的经典物理学的虚拟筛选方法,利用结合于目标高分子蛋白的各种化合物 的集体拟合状态等生物信息学信息,可实施以人工的智慧为基础的半经验的化合物虚拟筛 选。本发明是基于上述构思通过本申请发明人的潜心研究而完成的,其为筛选结合于目标蛋白的候选化合物的虚拟筛选装置,其至少具备存储部和控制 部,其特征在于, 所述存储部具备化合物数据库,■所述化合物数据库通过提取每个所述候选化合物的包含原子类型和原子间结 合规则的化学描述符而制成,■所述化学描述符作为联系化合物中多个原子的化合物指纹而被提取; 所述控制部具备■化合物指纹制作装置,其将结合化合物的三维坐标与所述化合物指纹一同提取 而制作结合化合物指纹集, 所述结合化合物已知结合于立体结构与所述目标蛋白相同或类似的家族蛋白, 所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标,和■最优化装置,其计算使所述候选化合物与所述目标蛋白的相互作用分值最优化 的所述候选化合物的立体结构, 所述候选化合物存储于所述化合物数据库中, 所述候选化合物与所述目标蛋白的相互作用分值以所述化合物指纹单元的均 方偏差为基础, 所述化合物指纹单元的均方偏差以所述结合化合物指纹集的所述三维坐标为
基础计算。即,根据本发明,可精度良好地预测蛋白和化合物的结合,并且可选出众多“中的” 化合物,另外,可进行将生物化学实验等的信息考虑在内的半经验筛选,进而,还可提高预 测效率。如上所述,本发明在使使用三维化合物指纹集的生物信息学技术发挥与使用经典 物理学能量方法的低分子化合物和高分子蛋白的对接相同的性能方面,与现有方法不同。 尤其是考虑X射线分析、NMR、电子射线分析、高分辨率电子显微镜分析等技术的飞快进步 时,可预测结合于目标高分子蛋白的化合物的分子数庞大地增加,因此,本发明发挥很大的 效果。另外,本发明为根据上述的虚拟筛选装置,其特征在于, 所述虚拟筛选装置与蛋白数据库装置连接,所述蛋白数据库装置存储结合于化 合物的蛋白的立体结构及氨基酸序列; 所述控制部还具备同一性检索装置,所述同一性检索装置基于所述目标蛋白与 所述氨基酸序列的同一性,从所述蛋白数据库装置检索所述家族蛋白及所述结合化合物; 所述化合物指纹制作装置将所述结合化合物的三维坐标与所述化合物指纹一 同提取而制作所述结合化合物指纹集,■所述结合化合物结合于利用所述同一性检索装置检索得到的所述家族蛋白,
7CN 101855392 A ■所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标。其中,作为本发明的一例,例示具体例,本发明在作为提取在类似于目标高分子 中的目标蛋白的立体结构的家族高分子集中结合有各种低分子化合物的集体构象时的 条件,在取出家族高分子集时,将该目标蛋白的序列设定为查询(查询)序列,通过利用 PSI-Blast等的同一性检索进行检测。而且,本发明在检测过的蛋白中,检索为符合的蛋 白-配体复合物(Protein-Ligand complex)含有低分子配体时,使用CE (不在意原子的种 类的蛋白之间的结构的拟合操作)等,与目标蛋白拟合。而且,本发明在表示其结构的相似 性的Z-Score为所定值(例如3.7以上)时,可与配体坐标一同,将检索到的结合于类似蛋 白的配体从类似蛋白的坐标系转换到目标蛋白的坐标系,仅挑选出配体。其中,CE进行不在意原子的种类的蛋白之间的结构的拟合操作,也可用具有同样 的功能的程序将其代替。另外,本发明在将该目标蛋白的序列设定为查询(查询)序列,通 过利用PSI-Blast等的同一性检索仅得到具有高同一性的序列时,也可使用在意原子的种 类的蛋白之间的结构的拟合操作的程序。另外,本发明在同一性检索中,不限于PSI-Blast, 也可将序列设定为查询进行同一性检索,作为可定量评价序列相似性的软件程序,可适用 任意的同一性检索程序。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述化合物指纹制作装置 通过所述家族蛋白和所述目标蛋白的结构拟合,将结合于该家族蛋白的所述结 合化合物的所述三维坐标转换到所述目标蛋白的坐标系,并 将经转换的所述三维坐标与所述化合物指纹一同提取而制作所述结合化合物 指纹集。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述化合物指纹制作装置 还具备新化合物指纹追加装置,所述新化合物指纹追加装置眷参照与所述结合化合物不同的其它所述化合物进行结构拟合,并眷提取跨越该结合化合物原子间和该其它所述化合物原子间的所述化合物指纹 而追加到所述结合化合物指纹集。作为本发明的一例,例示具体例时,作为结合化合物指纹集的具体例,可以结合 于类似于目标高分子中的目标蛋白的立体结构的家族高分子蛋白集的各种低分子化合物 数据库艮口 ‘‘CElib,,(FP (fingerprint) set extracted from collected ligands in the binding site(从结合位点的配体集提取的化合物指纹集))构成。在该CElib中含有目标 蛋白的坐标系中的坐标和Sybyl原子类型(atom-type)及单键、双键、芳香环键等键合规则 信息。其中,本发明还可根据对目标蛋白的低分子化合物的搜索的目标的必要,在CElib中 加入任意的FP (fingerprint 指“化合物指纹”。下同。)即,相比从集体结合于类似于现有的目标蛋白的立体结构的家族高分子集的各种 低分子化合物提取FP,在本发明中,在保持普通的一般存在的化合物分子和FP的相似性状 态,替换各种低分子化合物中原子的种类。而且,本发明使用“circle”等可评价稳定性的程 序计算与目标蛋白的相互作用能量,得到使相互作用更稳定的结构稍微不同的“Modified FP”(经修饰FP)。而且,本发明使用相对目标蛋白局部能量稳定的经修饰FP,如从作为蛋白 之间的结构的拟合操作的结果得到的集体结合的各种低分子化合物获得的FP那样捕获, 将其作为新的FP,如在上述发明中进行的那样,在FP的拟合中用作其对象FP。
8
在上述发明中,在蛋白和配体的对接中,代替目前使用的物理化学相互作用函数, 得到使用包含三维坐标的化合物指纹集的生物信息学的配体构象。而且,在本发明中,代替 从集体结合于类似于现有的目标蛋白的立体结构的家族高分子蛋白集的各种低分子化合 物提取FP,参照各种低分子化合物中不同的分子化合物,制作类似于普通的一般存在的分 子的FP的多种化合物结合三维化合物指纹集。而且,本发明如从作为蛋白之间的结构的 拟合操作的结果得到的集体结合的各种低分子化合物获得的FP那样捕获制得的化合物指 纹,将其作为新的FP,如在上述发明中进行的那样,在FP的拟合中用作其对象FP。S卩,上述发明将集体结合于家族高分子集的各种低分子化合物完全分解,代替目 前的以物理学公式为基础的对接计算,以分散的各种低分子化合物FP作为对接的基础。本 发明是对从集体结合于类似于现有的目标蛋白的立体结构的家族高分子蛋白集的各种低 分子化合物的构象的存在接近于与目标蛋白的家族蛋白相互作用的最稳定结构的事实进 行深思熟虑而产生的发明,与现有方法不同,具有大的效果,是有用的。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述化合物指纹制作装置 还具备新化合物指纹追加装置,所述新化合物指纹追加装置 对基于Tanimoto系数与所述结合化合物类似的所述化合物,替换该结合化合 物原子间和该化合物原子间的原子种类, 计算与所述目标蛋白的相互作用能量,并 制作与该结合化合物的所述化合物指纹相比,局部能量更稳定的所述化合物指 纹而追加到所述结合化合物指纹集。作为本发明的一例,例示具体例时,本发明由CElib对与目标蛋白家族高分子蛋 白集结合的各种低分子化合物,将各种家族高分子蛋白和配体的复合物设定为对象,以与 配体的相互作用稳定的方式利用Circle程序等相互作用计算程序。本发明对指纹(fp)单 元、即化学描述符单元改良变更原子的种类及结合的种类,将其作为新的指纹(fp)单元、 即化学描述符单元,将其作为新的FP,如在上述发明中进行的那样,在FP的拟合中用作其 对象FP。另外,在目标高分子中,结合于类似于目标蛋白的立体结构的家族高分子蛋白集 的各种低分子化合物数据库即CElib的FP对确定对接score (分值)有很大贡献。因此, 在本发明中,在上述发明中结合于目标高分子蛋白的理想的低分子配体的对接结构实验性 地分析结束时,在其键中将理想的低分子配体作为先导化合物,以相互作用能量变好的方 式附加各种取代基,或在发现作为化合物指纹的定量化函数的Tanimoto系数与理想的低 分子配体非常相似、即接近于1的任意的低分子配体时,将FP区域限定于所述实验性地分 析结束的理想的低分子配体的周围的区域(例如4或5埃)。由此,本发明可容易地计算这 些化学结构相似的Tanimoto系数非常相似的化合物的对接结构和其score (分值)。这为 结合化合物的先导物最优化(leadoptimization)或化合物的新(de novo)设计,在与上述 发明中的FP的作用的组合中,与现有方法不同,具有大的效果,是有用的。另外,目前,通常,在目标蛋白中结合作为各种低分子化合物的一部分的苯环等官 能团,得到物理学上稳定的部分结构,并由它们的结果计算目标蛋白和含有许多分子内自 由旋转的各种低分子化合物的相互作用时,减少所述对接构象的产生。在本发明中,使用作 为生物信息学的方法的“circle”这样的可评价稳定性的程序计算与目标蛋白的相互作用能量,制作经修饰FP。关于这一点,文献等公知物未发现,并且没有报道有像本发明那样在 采用FP的拟合作为对接的计算的基础时,以对接的计算的经修饰FP为基础的现有方法,本 发明与现有方法不同,具有大的效果,是有用的。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述结合化合物为利用公 知的对接算法预测为对所述目标蛋白具有稳定构象的化合物。作为本发明的一例,例示具体例时,在本发明中,采用使用作为目前一般实施的 方法的氢键、疏水性相互作用及静电相互作用等物理势函数的第一原理方法(Ab-initio Approach) 0例如,本发明追加从使用保证利用隐藏正确结构的盲试(blind test)可以 rmsd2. 0以下预测正确结构的比例的DOCK、AutoDock及GOLD等现有的对接软件预测为在 对接计算中具有稳定构象高的分值的低分子化合物的三维坐标中提取的FP (指纹)。另外,本发明可将通过目标蛋白和各种低分子化合物的相互作用的分值化而得到 的构象用作DOCK、AutoDock及GOLD等现有的对接软件的初期构象。由此,在上述发明中, 在简便地获得得到的初期构象的基础上,重现实验的精度高,因此,利用与其它的软件程序 的组合,可得到有用的结果。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述最优化装置还具备相 互作用分值计算装置,所述相互作用分值计算装置基于考虑以下因素的函数计算所述相互 作用分值 所述化合物指纹单元中以所述均方偏差为基础的所述候选化合物与所述目标 蛋白的冲突程度、 所述候选化合物在所述目标蛋白的相互作用区域中的存在比例、及 所述候选化合物与所述目标蛋白的直接相互作用比例。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述最优化装置通过下法 使所述相互作用分值最优化 基于Metropolis法判定所述相互作用分值, 根据判定结果变更、增加或减少成为所述候选化合物的基础的所述化合物指纹。作为本发明的一例,例示具体例时,本发明的Metropolis判定,如果这次的分值 比前次的分值大,则采用候选配体的结构;如果这次的分值比前次的分值小,则可计算采用 概率Paccept,根据Pacc印t确定放弃或采用。另外,本发明为根据上述的虚拟筛选装置,其特征在于, 所述最优化装置还具备结构变换装置,所述结构变换装置■在所述相互作用分值的最优化过程中,反复改变所述候选化合物的构象,■基于模拟退火法,按照该候选化合物的各所述构象将该候选化合物作为刚体反 复并行或旋转; 所述最优化装置计算经所述结构变换装置并行或旋转的各所述构象的所述候 选化合物的所述相互作用分值。作为本发明的一例,例示具体例时,为了在包含结合于与目标蛋白的立体结构类 似的家族高分子集的各种低分子化合物的几个三维坐标信息的FP中从虚拟化合物库将 库低分子化合物与目标蛋白对接并搜索相互作用最佳的构象,重复利用蒙特卡罗模拟退火(simulatedannealing)进行数学计算以使分值为最高。更具体而言,首先,本发明通过随机变更候选配体的可旋转的二面角而使构象变 化,使用所述构象变化了的候选配体的坐标。然后,本发明从来自结合于目标蛋白的家族蛋 白的结合化合物集的FP带随机地选择10个FP。然后,本发明从选择的fp带随机地选择候 选配体及从库配体随机地选择FP原子坐标集。然后,本发明将该状态设定为指纹(FP)比 对,以其对应关系进行最小二乘拟合。本发明使用此时的拟合的均方偏差(rmsd)和拟合后 的候选配体的原子坐标计算相互作用分值。然后,本发明在第二次以后存储前次的状态,保 持配体原子的构象的情况下,即进行刚体并行、旋转。然后,本发明进行一个FP的增加、减 少及原子坐标集的对应关系的变更、追加。本发明进行例如10000次该步骤。其中,模拟退 火的温度可从30K开始,下降至0. 07K。这样,本发明计算一个构象的分值的最大值,对初期 产生的1000个构象进行比较,将分值最大的结构预测为蛋白-配体复合物结构并输出。此 时,按该分值给1000个构象赋序的过程可通过使用遗传算法等,在计算时间及最大值的搜 索中下功夫。另外,本发明为根据上述的虚拟筛选装置,其特征在于,所述最优化装置基于以下 的数学式(1)计算所述相互作用分值数1FPAScore = F(aligned_fp, fp_rmsd, molecule)其中, 所述FPAScore表示所述相互作用分值, 所述F(aligned_fp,fp_rmsd, molecule)为将以下因素作为变量的函数■所述结合化合物和所述候选化合物间的所述化合物指纹单元的比对度、及所述 均方偏差、以及■将所述候选化合物对所述目标蛋白的所述立体结构; 所述BaseScore(aligned_fp,fp_rmsd)为表示所述化合物指纹单元的一致度 及密集度的指标; 所述fp_volume (molecule)为表示以下因素的指标■所述候选化合物占由所述结合化合物指纹集的所述三维坐标构成的空间的比 例、及■所述候选化合物与所述目标蛋白的冲突程度;眷所述fp_contact_surface (molecule)为表示以下因素的指标■所述候选化合物与所述目标蛋白的接触度、及■所述候选化合物对所述结合化合物指纹集的所述三维坐标的归属度。如上所述,这些上述叙述的发明中的数学计算,在用现有的物理学的相互作用函 数计算目标蛋白和虚拟化合物库低分子化合物的相互作用时,使用生物信息学的信息进行 半经验计算,其在这一方面与现有方法不同,结构预测的成功率进一步优于被世界认可的 对接软件程序,发挥决不会差的大的效果。另外,对于信息的积累,由于将半经验生物信息
=BaseScore (aligned_fp, fp_rmsd) Xfp_volume(molecule) Xfp_contact_surface(molecule)
11学方法的相互作用计算的结果向良好的方向引导,因此,与现有方法不同,是有用的。另外,本发明为根据上述的虚拟筛选装置,其特征在于, 所述数学式(1)中的所述BaseSCOre(aligned_fp,fp_rmsd)基于以下的数学式 ⑵计算,数2
其中,■所述RawScore (aligned_fp)为基于在所述结合化合物和所述候选化合物间比 对的所述化合物指纹中的原子数的指标,■所述fp_rmsd为所述均方偏差; 所述fp_V0lume (molecule)基于以下的数学式(6)计算,数3
其中,■所述nafp为所述候选化合物的所述三维坐标所占的固有网格点区域的网格点 数,所述固有网格点区域基于所述结合化合物指纹集的所述三维坐标,■所述nap为所述候选化合物的所述三维坐标所属的所述目标蛋白的所述立体 结构中原子的固有网格点区域的网格点数,所述k2及k3为任意常数; 所述 fp_contact_surface (molecule)基于以下的数学式(7)计算。数4
其中,■所述n为所述候选化合物的原子数,■所述atom⑴为所述候选化合物的第i个原子的所述三维坐标,■所述denSity_0f_at0m(at0m(i))为当该原子的所述三维坐标属于所述结合化 合物指纹集的所述化合物指纹时,返回以下数之和的函数 以所定距离与该化合物指纹的所述原子接触的所述目标蛋白的原子数、和 属于该化合物指纹的同一网格点的所述结合化合物的原子数,■所述 total_density_of_atom(molecule)为将按降序重排的所述 density_of_ atom分布依次累加所述候选化合物的原子数项的数。作为本发明的一例,例示具体例时,本发明为了明确上述内容中k2、k3的值,对EGFR及VEGFR等固有的目标蛋白搜索已知活性化合物,将k2、k3最优化。然后,本发明为在 EGFR的抑制剂的虚拟筛选中进行其值例如为k2 = 2. 0、k3 = 1. 0的虚拟筛选的方法。利 用上述发明的虚拟筛选可靠地列举适合于EGFR及VEGFR等固有的目标蛋白的化合物将直 接关系到抗癌剂的新药开发,因此,与现有方法不同,具有大的效果,是有用的。目前,GOLD这样的对接软件程序以参与生物学上重要的氢键的原子作为点或向 量,在基因算法中,在选择好的集合方面下功夫。这样的点或向量与上述发明中记载的作为 提取在类似于目标蛋白的立体结构的家族高分子集中结合有各种低分子化合物的集体构 象时的条件的部件(即三维化学描述符)的FP不同。本发明的特征在于,在上述发明中, 在相互作用的构象中取入构成生物学上重要的氢键等的原子点或向量的集时,如果将fp_ rmsd值设定为以下的式子,则可不与上述发明矛盾地含有参与生物学上重要的氢键或疏水 键或范德华相互作用的原子。艮口,在本发明中,可将fp_rmsd+distance rmsd indicative atom setcomposed of important points vectors 的式子扩展为 fp_rmsd ~k -k kl+distance_rmsd 女女 k4(女女 kl << * * k4为FP的贡献小* * kl >> * * k4为重视FP的贡献)的形式,也可设定 为distance_rmsd * ± k4。其中,distance_rmsd如下定义在目标蛋白和对接的低分子化 合物的相互作用中,配体原子在目标蛋白的配体结合位点中进行生物学上重要的氢键或疏 水键或范德华相互作用时,目标蛋白的配体结合位点中的理想坐标和由目标蛋白的生物学 上重要的原子或其附近的原子产生的向量的终点坐标的最小二乘误差。另外,在本发明中,在各种低分子化合物中,大部分化合物为连接有氨基酸残基的 肽时,由于肽基多,fp的对应关系复杂,因此,在分值的计算过程中过小评价,在关于上述发 明中的RawScore的上述数学式中,可将相当于肽的部分的FP的式子的部分设定为零等过 小评价的数字。S卩,本发明以FP为基础,在计算目标蛋白和对接的低分子化合物的相互作用的方 法中,进行作为目标高分子的目标蛋白的配体结合环境的网格信息、重视化合物和目标高 分子间的向量的化合物的多点信息、从表示目标蛋白的生物学环境的化合物朝向目标蛋白 的向量等的研究。其中基础上,本发明为包含由化合物的各种原子和构成目标高分子蛋白 的各种原子的经典物理学的原子间势式计算相互作用能量等的方法并使其融合的上述发 明的扩展发明,关于由分值确定与化合物的构象及相互作用的键的强度有关的顺序,与现 有方法不同,具有大的效果,是有用的。另外,本发明为虚拟筛选方法,其在至少具备存储部和控制部的虚拟筛选装置中 实施,所述方法筛选结合于目标蛋白的候选化合物,其特征在于, 所述存储部具备化合物数据库,■所述化合物数据库由提取每个上述候选化合物的包含原子类型和原子间结合 规则的化学描述符而制成,■所述化学描述符作为联系化合物中多个原子的化合物指纹而被提取; 所述方法包括在所述控制部中实施的以下步骤■化合物指纹制作步骤,将结合化合物的三维坐标与所述化合物指纹一同提取而 制作结合化合物指纹集, 所述结合化合物已知结合于立体结构与所述目标蛋白相同或类似的家族蛋白,
13
所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标;■最优化步骤,计算使所述候选化合物与所述目标蛋白的相互作用分值最优化的 所述候选化合物的立体结构, 所述候选化合物存储于所述化合物数据库中, 所述候选化合物与所述目标蛋白的相互作用分值以所述化合物指纹单元的均 方偏差为基础, 所述化合物指纹单元的均方偏差以所述结合化合物指纹集的所述三维坐标为
■石出。以上,根据本发明,可精度良好地预测蛋白和化合物的键合,并且可选出众多“中 的”化合物,另外,还可进行将生物化学的实验等信息考虑在内的半经验筛选,发挥可提高 预测效率的效果。附图简述

图1是表示本发明适用的本虚拟筛选装置的构成的一例的框图;图2是表示虚拟筛选装置100的处理的一例的流程图;图3是表示利用有效地使用现有的对接软件和蛋白-配体复合物的多个X射线结 构或NMR结构的生物信息学的本实施例所述的对接方法的状况图;图4是本实施例(ChooseLD)的蛋白-配体对接的原理构成图;图5是表示FP(指纹)的制作方法的一例的图;图6是表示本实施例中使用的原子的字符串列表;图7是表示利用Tanimoto系数的化合物间的相似性计算方法的示意图;图8是表示在目标蛋白的结合位点上对接配体时的FP的一例的示意图;图9是表示从搜索路径得到原子坐标并注册于FP带的过程的一例的图;图10是表示本实施例中的FP带的压缩工序(method step of shrinking fingerprint band)的一{列的图;图11是表示对坐标向量之间赋予对应关系的过程的一例的示意图;图12是使用原子数为31的配体表示nafp和nap的具体例的图;图13是表示目标蛋白的活性位点附近的来自FP库的配体的位置的一例的图;图14是表示模拟退火过程的一例的概念图;图15是示意性地表示用于计算FPAScore的FP比对及最小二乘拟合的图;图16是表示EGFR虚拟筛选中的计算时间的分布的图;图17是表示基准的概要的一例的图;图18是表示对PDB的注册数的年度分布的图;图19是概括预测和实验结果间的rmsd的表;图20是85集的预测成功率一览(kl和Tc范 的关系)表;图21是表示可在rmsd2. 0以下预测至10位的比例的图表;图22是表示可在rmsd2. 5(Close)以下预测至10位的比例的图表;图23是表示在与视为成功的正确结构的rmsd在2.0人之外进行时的图表;图24是表示与ChooseLD相比、Dock、AutoDock及GOLD的基准的结果的图表;图25是表示85集中的与FPAScore的预测结构和实验结构的rmsd为2.0人以下的各个目标蛋白的冲突个数的分布的图;图26是表示85集基准中的预测成功结构的个数分布的图;图27是表示各靶标的总10次对接尝试中的成功个数的图;图28是表示133集的基准中的DOCK、AutoDock、GOLD预测结构的rmsd分布的结 果和ChooseLD法的结果的图;图29是表示133集的基准中的DOCK、AutoDock、GOLD预测结构的rmsd分布的结 果和ChooseLD法的结果的图;图30是表示各靶标中的总10次的对接尝试中的成功个数的图;图31是表示各靶标中的总10次的对接尝试中的成功个数的图;图32是表示在Tc范围限定的FP库中在根据FPAScore赋序的分布内得到与实验 结构的rmsd为2.0人以下的结构的概率的图;图33是表示在Tc范围限定的FP库中在根据FPAScore赋序的分布内得到与实验 结构的rmsd为2.0人以下的结构的概率的图;图34是表示预测成功结构的冲突个数的分布的图;图35是表示进一步降低用于FP库的配体的Tc范围的上限值,并在0. 16,0. 24、 0. 36使下限值为0. 08时的性能,及上述Tc范围即上限值为0. 56,0. 76,0. 96、下限值为 0. 08的预测成功率的图;图36是表示对1DR1预测的蛋白-配体结构的图;图37是表示对4EST预测的蛋白-配体结构的图;图38是表示GOLD失败但ChooseLD预测成功的靶标的关于1⑶G的图;图39是表示GOLD失败但ChooseLD预测成功的靶标的关于1DR1的图;图40是表示GOLD失败但ChooseLD预测成功的靶标的关于1LDM的图;图41是表示GOLD失败但ChooseLD预测成功的靶标的关于4EST的图;图42是表示133集中的90靶标的预测成功率的图表;图43是用TcCTanimoto系数)计算对接软件间的预测成功的目标蛋白的PDBID 类似度的图表;图44是表示各对接软件对90靶标中的一个目标蛋白的预测的成功与否分布的图 表;图45是表示DOCK失败但ChooseLD预测成功的靶标的关于1HYT的图46是表示DOCK失败但ChooseLD预测成功的靶标的关于1PHG的图47是表示DOCK失败但ChooseLD预测成功的靶标的关于1TMN的图48是表示不仅1位、而且至10位可采取rmsd2. 0的结构的比例的图49是表示不仅1位、而且至10位可采取rmsd2. 5(Close)的结构的比例的图
图50是表示使定义为成功的rmsd变化时的图表;
图51是表示利用本实施例的处理的结果的图表;
图52是表示来自EGFR的细胞内信号转导通路的图53是表示EGFR的氨基酸序列的比对的图54是表示构建的EGFR模型的图55是表示得到的11个抑制剂的平面结构的图56是表示将由FPAScore定义的k2值在0. 5 5. 0的范围变更时的收获率折 线图的图;图57是表示将FPAScore中的k3值在0. 5 2. 0的范围变更时的收获率折线图 的图;图58是表示将Tc上限值设定为1. 00、使Tc下限值的范围设定为0. 08 0. 32, 以0. 08刻度变化时的各Tc范围中的虚拟筛选的结果的图;图59是表示注册于PDB的蛋白-配体复合物结构已知的PDBID和其配体的排列 顺序的图;图60是将图59的配体ID和化合物名相对应起来的图;图61是表示利用Kinase的虚拟筛选的压缩的结果的上10位的蛋白-配体复合 物的图;图62是从其它角度观察图61的图;图63是表示TGF-a结合域附近的图; 64^^^^jiffiMDL Comprehensive Medicinal Chemistry(MDL CMC)Library 的EGFR的TGF-a结合域的虚拟筛选的结果的图;图65是表示使用MDL A⑶Library的同一虚拟筛选的结果的图;图66是表示KRN633 (IC50 = 1. 16nm/L)的平面结构的图;图67是表示KRN951 (IC50 = 0. 16nm/L)的平面结构的图;图68是表示在对KRN633的VEGFR2活性位点附近的对接所使用的属于FP库的配 体中用于对接的配体的上位10个的图;图69是与VEGFR2的活性位点附近的立体结构一同表示对KRN633实行10次 ChooseLD法并预测的10个结构的图;图70是表示在对KRN951的VEGFR2活性位点附近的对接中使用的属于FP库的配 体中用于对接的配体的上位10个的图;图71是与VEGFR2的活性位点附近的立体结构一同表示对KRN951实施10次 ChooseLD法并预测的10个结构的图;图72是对于将由使用133集的ChooseLD法的对接性能试验的结果得到的Tc下 限值固定在0. 08、并使Tc上限值变化时的预测成功率,将横轴设定为Tc上限值、纵轴设定 为成功率的图; 图73是表示烯酰基载体蛋白的立体结构的图; 74 ^^^jiffi MDL Comprehensive Medicinal Chemistry (MDL CMC) Library 进行烯酰基载体蛋白的虚拟筛选的结果的FPAScore的上位10个结构的图;图75是表示AMPKhomoGAMMAl和2V9J_E的氨基酸序列的比对的图;图76是表示配体结合于全部受体的CMC医药品的结果列表的图;图77是将1位 10位的对2V9J_E受体的结合状态图示的图。
具体实施例方式下面,基于附图对本发明的虚拟筛选装置及虚拟筛选方法的实施方式进行详细说 明。需要说明的是,本发明不受该实施方式限定。
1本发明的概要下面,对本发明的概要进行说明,其后,对本发明的构成及处理等进行详细说明。目前,PDB (Protein Data Bank)中注册有利用X射线分析、匪R实验、电子射线分 析实验、高分辨率电子显微镜照片等实验表示肽或低分子化合物或金属等各种化合物与目 标高分子进行直接相互作用的状态的至约4万的数目的三维坐标。另外,随着计算机的性 能和生物信息学的进步,结合有各种化合物的立体结构与目标高分子蛋白类似的家族高分 子蛋白集可利用在SC0P等网站或CASP中显示优异的成绩的本申请人制作的程序等容易地 得到并提取。根据该状态,本申请发明人获得以下构思如果可代替由利用对目前一般经典物 理学确定的目标高分子蛋白的直接结合的该化合物的构象或此时得到的分值的该相互作 用能量的结果确定化合物的虚拟筛选的顺序的方法,利用结合于目标高分子蛋白的各种化 合物的集体拟合状态代用生物信息学,则应该可由利用以人的智慧为基础的化合物的构象 或此时得到的分值的相互作用能量的结果,根据化合物的虚拟筛选确定顺序。本发明是基于上述构思、通过本申请发明人的潜心研究而完成的,其概略地具有 以下的基本特征。即,本发明为虚拟筛选装置,其至少具备存储部和控制部,其进行结合于 目标蛋白的候选化合物的筛选,其特征在于,所述存储部具备化合物数据库,所述化合物数 据库通过提取每个上述候选化合物的包含原子类型和原子间结合规则的化学描述符而制 成,其中所述化学描述符作为联系化合物中多个原子的化合物指纹而被提取。其中,所谓“化合物指纹”(指纹FP),更具体而言,为包含化合物中的原子2个、3 个或4个等的原子的原子类型和原子间结合规则的化学描述符。作为“原子类型”的一例, 为Sybyl原子类型(atom-type)或化合价类型(Valence-type)等。“原子间结合规则”表 示原子间的化学结合的状态,例如,表示单键、双键或芳香环键合等键合规则或利用分子轨 道法进行的分类等。接着,本发明的筛选装置将结合化合物的三维坐标与所述化合物指纹一同提取而 制作结合化合物指纹集,所述结合化合物已知结合于立体结构与所述目标蛋白相同或类似 的家族蛋白,所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标。 即,在目标蛋白的坐标系中收集结合于其立体结构的化合物集体的集体构象,对应于三维 坐标提取化合物指纹。其中,“立体结构和目标蛋白相同或类似的家族蛋白”可为目标蛋白本身,也可为 与目标蛋白的一部分结构(例如活性位点或配体结合位点等)相同或类似的蛋白,可分析 目标蛋白的立体结构而不指定活性位点地使用相同或类似的蛋白。为了使稳定构象具有高 的分值,在使用现有的DOCK、AutoDock或GOLD等现有的对接软件的对接计算中,需要预先 分析该目标蛋白的立体结构,指定活性位点。但是,在本发明中,与这些相比,与现有方法不 同,具有大的效果,不需要通过文献等的学习指定活性位点,因此,是有用的。另外,可将目标蛋白的氨基酸序列设定为查询序列,由存储结合于化合物的蛋白 的立体结构及氨基酸序列的蛋白数据库等进行同一性检索,将利用与目标蛋白的结构拟合 表示结构的相似性的指标为一定值以上的蛋白设定为家族蛋白。另外,其中,“已知结合于 蛋白的结合化合物”可为利用X射线结构分析或NMR结构分析等实验性地确认蛋白-化合 物复合物的立体结构的化合物。另外,结合化合物仅已知结合于蛋白即可,可为利用公知的
17对接算法(D0CK、AutoDoCk或GOLD等)或任意的坐标产生程序(Corina等)等预测为相对 目标蛋白具有稳定的构象的化合物。另外,其中,为了将结合化合物的三维坐标转换到目标蛋白的坐标系,本虚拟筛选 装置可进行家族蛋白和目标蛋白的结构拟合操作,将结合于家族蛋白的结合化合物与结合 化合物的坐标一同,从家族蛋白的坐标系转换到目标蛋白的坐标系。例如,结构拟合操作可 利用不考虑原子的种类的蛋白之间的结构的拟合算法(CE等)实施,也可在目标蛋白和家 族蛋白的同一性高的情况下,进行考虑了原子的种类的结构拟合。另外,化合物指纹的提取不限于从结合化合物直接提取,也可根据对目标蛋白的 候选化合物的搜索的目标的需要加入任意的化合物指纹。例如,可参照与结合化合物不同 的其它化合物进行结构拟合,制作联系结合化合物和其它上述化合物的原子间的新的化合 物指纹并加入到结合化合物指纹集,对基于Tanimoto系数与结合化合物类似的化合物,替 换结合化合物和该化合物的原子间原子的种类,使用可评价稳定性的程序(“circle”等) 计算相对于目标蛋白的相互作用能量,重新制作局部能量比结合化合物的化合物指纹更稳 定的化合物指纹作为“经修饰化合物指纹(Modified FP)”,并追加于结合化合物指纹集。 即,将与目标蛋白结合的理想的低分子化合物作为先导化合物,附加各种取代基,以使相互 作用能量变好,或在发现作为化合物指纹的定量化函数的Tanimoto系数与理想的低分子 化合物非常类似、即接近于1的任意的低分子化合物时,将化合物指纹区域限定于实验性 地分析完的理想的低分子化合物的周围的区域即4或5埃。由此,可容易地计算这些化学 结构相似的Tanimoto系数非常相似的化合物的对接结构和其相互作用分值。接着,本发明的虚拟筛选装置对存储于化合物数据库的候选化合物,运算候选化 合物的相对于目标蛋白的立体结构,以使以将坐标固定的结合化合物指纹集的三维坐标作 为基础计算的化合物指纹单元的均方偏差(rmsd :root-mean-square-deviation)为基础 的相互作用分值最优化。S卩,在该最优化过程中,作为一例,本虚拟筛选装置使候选化合物的构象反复变 化,按照候选化合物的各构象将候选化合物作为刚体反复并行或旋转,基于Metropolis法 判定以均方偏差为基础计算的相互作用分值,根据判定结果使候选化合物的化合物指纹变 更、增加或减少。其中,可随机提取几个化合物指纹,选择成为基础的坐标固定的结合化合 物指纹集。另外,也可代替通过随机地变更候选化合物的可旋转的二面角而使构象变化,而 像基因算法等那样存储以前的构象,使候选化合物的结构变化。另外,作为上述最优化过程中的相互作用分值的计算的一例,基于将在化合物指 纹单元中以均方偏差为基础的候选化合物与目标蛋白的冲突程度、候选化合物在目标蛋白 的相互作用区域中的存在比例及候选化合物与目标蛋白的直接相互作用比例考虑在内的 函数而计算。更具体而言,相互作用分值基于以下的数学式(1)计算。数5FPAScore = F(aligned_fp, fp_rmsd, molecule)= BaseScore (aligned_fp, fp_rmsd)X fp_volume (molecule)X fp_contact_surface(molecule)(1)(其中,
FPAScore为相互作用分值; F(aligned_fp, fp_rmsd, molecule)为将以下因素作为变量的函数■结合化合物和候选化合物间的化合物指纹单元的比对度及均方偏差、以及■候选化合物对目标蛋白的立体结构; BaseScore(aligned_fp, fp_rmsd)为表示化合物指纹单元的一致度及密集度 的指标; fp_volume (molecule)为表示以下因素的指标■候选化合物占由结合化合物指纹集的三维坐标构成的空间的比例、及■候选化合物与目标蛋白的冲突程度; fp_contact_surface (molecule)为表示以下因素的指标■候选化合物与目标蛋白的接触度、及■候选化合物对结合化合物指纹集的三维坐标的归属度。)以上为本发明的处理的概要。如上所述,可基于根据最优化方法计算的相互作用 分值,确定候选化合物对目标蛋白的相互作用的顺序,由化合物数据库推定有效的候选化 合物,因此,可精度良好地预测蛋白和化合物的结合,并且可选出众多“中的”化合物,另外, 可进行将生物化学实验等的信息考虑在内的半经验筛选,可提高预测效率。S卩,本发明为考察集体结合于与目标蛋白的立体结构相同或类似的家族蛋白的各 种低分子化合物(结合化合物)的构象接近于与目标蛋白相互作用的最稳定结构而完成的 发明。进而,本发明在对比结合化合物和候选化合物时,以容易操作的化合物指纹为单元, 进行适当的相互作用分值的记分而进行最优化,由此,可进行预测效率比现有方法提高了 的半经验虚拟筛选。虚拟筛选装置的构成首先,对本虚拟筛选装置的构成进行说明。图1是表示应用本发明的本虚拟筛选 装置的构成的一例的框图,该构成中,仅概念性地表示与本发明有关的部分。在图1中,虚拟筛选装置100概略地具备以下结构而构成 综合控制虚拟筛选装置100整体的CPU等控制部102、 与连接于通信线路等的路由器等通信装置(未图示)连接的通信控制接口部 104、 连接于输入装置112或输出装置114的输入输出控制接口部108、及 保存各种数据库及表等的存储部106,上述各部以经由任意的通信路线以可通信方式连接。进而,该虚拟筛选装置100以经由路由器等通信装置及专用线等有线或无线的通 信线路与网络300以可通信方式连接。保存在存储部106的各种数据库及表(候选化合物DB106a 医药品化合物 DB106c)为硬盘装置等存储装置,其保存用于各种处理的各种程序、表、文件、数据库及网页寸。在这些存储部106的各构成要素中,候选化合物DB106a为对每个成为虚拟筛选的 候选的化合物(称为“候选化合物”。)提取化合物指纹而制成的候选化合物数据库装置。另外,结合化合物指纹集106b为存储对已知结合于立体结构和目标蛋白相同或类似的蛋白(称为“家族蛋白”。)的化合物(称为“结合化合物”。)、与转换到目标蛋白的 坐标系的三维坐标一同提取化合物指纹而制成的结合化合物指纹集的结合化合物指纹存
储装置。另外,医药品化合物DB106c为存储对已知的医药品化合物提取化合物指纹而制 成的医药品化合物指纹集的MDL CMC Library等医药品化合物数据库。S卩,医药品化合物 DB106C是以下述情况为目的而使用的为了使用医药品数据库提取化合物信息,以药物吸 收、药物代谢、药物排泄或药物毒性等为指标,使用作为化合物指纹的整理的基础的基础数 据单元,制作预先整理好的药物吸收、药物代谢、药物排泄或药物毒性特殊化了的结合化合 物指纹集106b。另外,在图1中,通信控制接口部104进行虚拟筛选装置100和网络300(或路由 器等通信装置)之间的通信控制。即,通信控制接口部104具有经由和通信线路和其他终 端通信数据的功能。另外,在图1中,输入输出控制接口部108进行输入装置112或输出装置114的控 制。其中,作为输出装置114,除监控器(包含家用电视机)之外,还可使用扬声器(需要说 明的是,以下,有时将输出装置114称为监控器)。另外,作为输入装置112,可使用键盘、鼠 标、记录介质读取装置等。经由该输入装置112,输入成为虚拟筛选的对象的目标蛋白或候 选化合物。另外,在图1中,控制部102具有OS(操作系统)等控制程序、规定各种处理步骤 等的程序及用于保存所需数据的内部存储器,利用这些程序等,进行用于实施各种处理的 信息处理。控制部102功能概念性地具备化合物指纹制作部102a、最优化部102b、筛选结 果输出部102c、同一性检索部102d而构成。化合物指纹制作部102a为从候选化合物、结合化合物或医药品化合物等化合物 中提取化合物指纹的化合物指纹制作装置。例如,化合物指纹制作部102a对经由输入装 置112输入的候选化合物提取化合物指纹,制作候选化合物指纹集,并保存于候选化合物 DB106a。另外,化合物指纹制作部102a从得到的医药品化合物中提取化合物指纹,制作医 药品化合物指纹集,并保存于医药品化合物DB106C。另外,化合物指纹制作部102a对已知结合于家族蛋白的结合化合物,将原子的三 维坐标转换到目标蛋白的坐标系,与转换成的三维坐标一同,提取化合物指纹,制作结合化 合物指纹集106b。即,化合物指纹制作部102a在目标蛋白的坐标系中,收集结合于其立体 结构的化合物集体的集体构象,对应附加于三维坐标,提取化合物指纹。换言之,化合物指 纹制作部102a伴随化合物描述符的三维坐标,尽可能多地从结合于目标蛋白的化合物集 体提取被称为化合物指纹的包含原子2个、3个或4个等原子的原子类型和原子间的结合规 则的化合物描述符,并将它们作成数据库的表保存在存储部106中,由此,制作结合化合物 指纹集106b。其中,为了将结合化合物的三维坐标转换到目标蛋白的坐标系,化合物指纹制作 部102a可进行家族蛋白和目标蛋白的结构拟合操作,将结合于家族蛋白的结合化合物的 三维坐标(从家族蛋白的坐标系)转换到目标蛋白的坐标系。例如,化合物指纹制作部102a 可利用不考虑原子的种类的蛋白之间(目标蛋白和家族蛋白)的结构拟合算法(CE等)进 行结构拟合操作,在目标蛋白和家族蛋白的同一性高的情况下,还可进行考虑原子的种类的结构拟合。另外,化合物指纹制作部102a不限于从结合化合物直接提取化合物指纹,其还可 根据对目标蛋白的候选化合物的搜索的目标的需要将任意的化合物指纹加入到结合化合 物指纹集106b。其中,化合物指纹制作部102a如图1所示,具备新化合物指纹追加部102e 而构成。即,新化合物指纹追加部102e为制作从结合化合物直接提取的化合物指纹以外的 新化合物指纹并追加于结合化合物指纹集106b的新化合物指纹追加装置。例如,新化合物 指纹追加部102e可参照与结合化合物不同的其它化合物进行结构拟合,制作跨越结合化 合物和其它上述化合物的原子间的新的化合物指纹,并加入到结合化合物指纹集106b中。 另外,新化合物指纹追加部102e可对基于Tanimoto系数与结合化合物类似的化合物,替换 结合化合物和该化合物的原子间原子的种类,使用可评价稳定性的程序(“circle”等)计 算针对目标蛋白的相互作用能量,重新制作局部能量比结合化合物的化合物指纹稳定的化 合物指纹作为“经修饰化合物指纹(Modified FP)”,并追加于结合化合物指纹集106b。最优化部102b为最优化装置,其对存储在候选化合物DB106a的候选化合物,运算 该候选化合物的相对于目标蛋白的立体结构,以使将存储在结合化合物指纹集106b的化 合物指纹的三维坐标作为基础计算化合物指纹单元的均方偏差(rmsd)并以该均方偏差为 基础的相互作用分值最优化。例如,最优化部102b对每个生成的候选化合物的该构象及相 对于目标蛋白的三维坐标,基于Metropolis法判定以均方偏差为基础计算的相互作用分 值,根据判定结果使候选化合物的化合物指纹变更、增加或减少。其中,最优化部102b也可 从结合化合物指纹集106b随机提取几个化合物指纹,选择成为基础的坐标固定的结合化 合物指纹集。其中,如图1所示,最优化部102b具备相互作用分值计算部102f、结构变换部 102g而构成。相互作用分值计算部102f为在利用最优化部102b进行最优化过程中,基于将在 化合物指纹单元中以均方偏差为基础的候选化合物与目标蛋白的冲突程度、候选化合物在 目标蛋白的相互作用区域中的存在比例及候选化合物与目标蛋白的直接相互作用比例考 虑在内的函数而计算相互作用分值的相互作用分值计算装置。需要说明的是,对于利用相 互作用分值计算部102f的相互作用分值的计算的具体例,在以下的处理的说明中详细叙 述。另外,结构变换部102g为在利用最优化部102b进行的最优化过程中,使候选化合 物的构象反复变化,并基于模拟退火法,按照该候选化合物的各构象将该候选化合物作为 刚体反复并行或旋转的结构变换装置。另外,结构变换部102g还可代替通过随机地变更候 选化合物的可旋转的二面角而使构象变化,而像基因算法等那样,存储以前的构象,使候选 化合物的结构变化。筛选结果输出部102c为基于利用最优化部102b进行最优化的相互作用分值而确 定候选化合物对目标蛋白的相互作用顺序,并输出虚拟筛选结果的结果输出装置。同一性检索部102d为基于与目标蛋白的氨基酸序列的同一性,由蛋白数据库装 置检索家族蛋白及结合化合物的同一性检索装置。即,同一性检索部102d为了得到结合化 合物,将目标蛋白的氨基酸序列设定为查询序列,通过对外部系统200等蛋白数据库进行 查询,进行同一性检索,得到结合于相对目标蛋白具有同一性的蛋白的结构已知的结合化 合物。
如图1所示,本虚拟筛选装置100可经由网络300和提供与氨基酸序列信息或蛋 白立体结构信息有关的外部数据库、或进行序列或立体结构的比对等的外部程序等的外部 系统200以可通信方式连接而构成。需要说明的是,网络300具有相互连接虚拟筛选装置 100和外部系统200的功能,例如为因特网等。S卩,在图1中,外部系统200经由网络300与虚拟筛选装置100相互连接,具有 提供与氨基酸序列信息或蛋白立体结构信息有关的蛋白数据库等外部数据库(PDB或 PSI-Blast等)、或进行序列或立体结构的比对等的外部程序等的功能。其中,蛋白数据库 不限于利用X射线结构分析或NMR结构分析等实验性地确认蛋白-化合物复合物的立体结 构的数据库,其也可保存已知仅结合于蛋白的化合物。此时,上述化合物指纹制作部102a 利用公知的对接算法(D0CK、AutoDoCk或GOLD等)或任意的坐标产生程序(Corina等)等, 预测相对目标蛋白具有稳定的构象的结合化合物的结构,并应用于结合化合物指纹集106b 的制作。虚拟筛诜装置100的处理接着,下面,参照图2对这样构成的本实施方式中的本虚拟筛选装置100的处理的 一例进行详细说明。图2是表示虚拟筛选装置100的处理的一例的流程图。如图2所示,首先,同一性检索部102d基于经由输入装置112输入的目标蛋白的 氨基酸序列,由外部系统200等的蛋白数据库对与特定的化合物(结合化合物)结合的立 体结构已知的家族蛋白进行同一性检索(步骤SA-1)。然后,化合物指纹制作部102a使目标蛋白的结构和伴随结合化合物的家族蛋白 的结构拟合(步骤SA-2)。其中,化合物指纹制作部102a可进行不考虑原子的种类的蛋白 之间的结构拟合,在目标蛋白和家族蛋白的同一性为规定值以上的高的情况下,也可进行 考虑原子的种类的结构拟合。然后,化合物指纹制作部102a将结合化合物的三维坐标从家族蛋白的坐标系转 换到目标蛋白的坐标系(步骤SA-3)。然后,化合物指纹制作部102a与转换到目标蛋白的坐标系的结合化合物的三维 坐标一同,从结合化合物提取化合物指纹,并保存于存储部106,由此,制作结合化合物指纹 集106b(步骤SA-4)。其中,新化合物指纹追加部102e可根据对目标蛋白的候选化合物的 搜索的目标的需求加入任意的化合物指纹(“Modified FP”)。另外,化合物指纹制作部 102a可通过求出存储在结合化合物指纹集106b中的化合物指纹集和存储在医药品化合物 DB106C中的化合物指纹集的交集,进行与医药品化合物相似的结构的压缩。然后,最优化部102b对存储于候选化合物DB106a的候选化合物,从结合化合物指 纹集106b中选出成为计算相互作用分值的基础的坐标固定的化合物指纹(步骤SA-5)。然后,最优化部102b对候选化合物运算候选化合物的相对于目标蛋白的立体结 构,以使将选出的化合物指纹的坐标固定的三维坐标作为基础而计算化合物指纹单元的均 方偏差并进行最小二乘拟合的以该均方偏差为基础的相互作用分值最优化(步骤SA-6)。 即,最优化部102b通过相互作用分值计算部102f的处理,计算从结合化合物指纹集106b 中任意选择的、以目标蛋白的坐标固定的化合物指纹作为基础以化合物指纹之间的三维坐 标的均方偏差为基础的相互作用分值。而且,最优化部102b以相互作用分值为指标,实施 以Metropolis法为基本的模拟退火法,以使通过结构变换部102g的处理而变换的候选化
22合物的构象及相对于目标蛋白的结构最优化。而且,筛选结果输出部102c基于利用最优化部102b进行最优化的相互作用分值, 确定候选化合物DB106a中的候选化合物的相对于目标蛋白的相互作用顺序,将虚拟筛选 的结果输出到输出装置114(步骤SA-7)。例如,筛选结果输出部102c利用最优化部102b 对每个候选化合物得到的最高点的相互作用分值,按降序重排候选化合物群而输出。以上,虚拟筛选装置100的处理结束。相互作用分倌的计算接着,以下说明利用相互作用分值计算部102f的相互作用分值的计算方法的一 例。相互作用分值计算部102f基于将在化合物指纹单元中以均方偏差为基础的候选化合 物与目标蛋白的冲突程度、候选化合物在目标蛋白的相互作用区域中的存在比例及候选化 合物与目标蛋白的直接相互作用比例考虑在内的函数,计算相互作用分值。更具体而言,相 互作用分值基于以下的数学式(1)计算。数6FPAScore = F(aligned_fp, fp_rmsd, molecule)(其中, FPAScore为相互作用分值; F(aligned_fp, fp_rmsd, molecule)为将以下因素作为变量的函数■结合化合物和候选化合物间的化合物指纹单元的比对度及均方偏差、以及■候选化合物对目标蛋白的立体结构; BaseScore(aligned_fp, fp_rmsd)为表示化合物指纹单元的一致度及密集度 的指标; fp_volume (molecule)为表示以下因素的指标■候选化合物占由结合化合物指纹集的三维坐标构成的空间的比例、及■候选化合物与目标蛋白的冲突程度; fp_contact_surface (molecule)为表示以下因素的指标■候选化合物与目标蛋白的接触度、及■候选化合物对结合化合物指纹集的三维坐标的归属度。)更具体而言,上述数学式(1)中的各项在本实施方式中基于以下的数学式计算。<BaseScore (aliRned fp,fp rmsd)工贡 >该项为考虑化合物指纹单元的一致度及密集度的函数。数7

=BaseScore (aligned_fp, fp_rmsd) Xfp_volume(molecule) Xfp_contact_surface(molecule) (其中,
RawScore (aligned_fp)为基于在结合化合物和候选化合物间比对的化合物指纹 中的原子数的指标,fp_rmsd为均方偏差。)上式的RawScore (alignecLfp)具体利用以下的数学式(3)计算。数8
(其中,aSSigned_SCOre(i)为预先赋予第i个比对的化合物指纹的基于以下的式 子的分值。)更详细而言,assigned_score(i)由以下的数学式(4)求出。数9
(其中,total_atom(i)为构成该第i个比对的化合物指纹的原子数,例如由4个原子构成 的化合物指纹时为4。Casel_S、Case2_S、Case3_S为满足下述叙述的条件时赋予的标量值。n_neighbor_atom(i)为后述接近于第i个原子集的属于相同化合物指纹的原子 数。)例如,关于Casel_S,对存在于结合化合物指纹集的一个结合化合物,进行深度优 先搜索(d印th-first search)(参照“C 7 ;i 3"丨J丈A全科基礎众b v y -i ^ t ^ ISBN4-7649-0239-7近代科学社”)至个4原子(例如C. ar-N. ar_C. ar_C. ar等化合物指 纹)。在本实施方式中,至4个原子时结束搜索,因此,不考虑环结构的数。g卩,不区别苯环 和萘环。搜索成功时,对构成化合物指纹的各原子赋予分值(Casel_S)。其中,将每个原子 的标量值设定为5. 0。S卩,由4个原子构成的化合物指纹为20. 0,如果为3个原子,则赋予 15. 0。另外,Case2_S为使用由Casel得到的化合物指纹制作新的化合物指纹时即选择 以某一定的距离拟合的任意的两个化合物指纹并用虚拟的键连结原子而制作新的化合物 指纹时各原子具有的一定的分值的情况。默认值可使用2.5。另外,Case3_S为利用生物化学信息或能量计算在有可能存在原子的情况下赋予 的任意的标量值。其中,(^%3_5在使用训练集的验证计算中不采用。其中,在上述Casel_S、Case2_S的制作过程中得到的化合物指纹必需属于由可识 别结合规则信息和原子类型的已知医药品数据库得到的化合物指纹集。另外,在Casel_S和Case2_S、Case3_S的制作过程中,在属于相同化合物指纹的坐标间,将原子坐标集和其 它原子的距离在dist (默认值为1.0人)以内的原子的个数的自然对数加在fp的坐标的分 值中。需要说明的是,在结合化合物中,化合物的大部分为连接有氨基酸残基的肽时,肽基 多且化合物指纹的对应关系复杂,因此,在相互作用分值的计算过程中过小评价其对应关 系,在关于RawScore的上述数学式中,可使对应于肽的部分的化合物指纹的数学式(3)的 部分为零等过小评价的数字。上述数学式(2)的右边分母由以下的数学式(5)求出。数101. 0+ln(fp_rmsd**kl+l. 0)(5)(其中,In为自然对数。kl使用4. 0作为最优化的结果。fp_rmsd为最小二乘拟合时的rmsd。kl为确定使fp的拟合的精度绝对有多严密的比例因子,为其大时rmsd大(差)、 即使数学式(3)的RawScore (分值)变小的常数。)<fp volume (molecule)项〉该项为评价候选化合物占由结合化合物指纹集的三维坐标构成的空间的比例、即 以怎样的程度充满由结合化合物指纹集得到的化合物指纹构成的空间及与目标蛋白的冲 突的函数。数11
(其中,nafp (覆盖指纹的配体原子数,Number of Ligand Atom coveringFingerprint) 为在基于结合化合物指纹集的三维坐标的固有网格点区域中候选化合物的三维坐标所占 的网格点数,nap (覆盖蛋白的配体原子数,Number of Ligand Atom coveringProtein)为在目 标蛋白的立体结构中的原子的固有网格点区域中候选化合物的三维坐标所属的网格点数,k2及k3分别为系数,为可根据目标蛋白的生物化学信息、诱导契合的程度等而变 更的任意的常数,在本实施方式中,默认值使用1.0。)〈fp contact surface (molecule)项>该项为考虑候选化合物与目标蛋白的接触度及对结合化合物指纹集的三维坐标 的归属度的函数。数12
(其中,n为候选化合物的原子数,atom(i)为候选化合物的第i个原子的三维坐标,density_of_atom(atom(i))为在该原子的三维坐标属于结合化合物指纹集的化 合物指纹时返回以所定距离与化合物指纹的原子接触的目标蛋白的原子数和属于化合物 指纹的同一网格点的结合化合物的原子数之和的函数,total_density_of_atom(molecule)为将按降序重排的所述 density_of_atom 分 布依次累加所述候选化合物的原子数项的数。)更详细而言,density_of_atom(atom(i))用以下的数学式(8)表示。数13
在该式中,如果构成候选化合物的原子的坐标不属于来自结合化合物指纹集的化 合物指纹的情况为0,则属于的情况按照上述的式子计算分值。g卩,nfpcontact为以某种一定的距离(默认值为3. 8)与属于化合物指纹的原子 接触的候选化合物的原子的个数。另外,natom为构成来自属于同一网格点的结合化合物 集的化合物的原子数。对为相同的结合化合物且PDB的ID代码不同的情况,可适当变更, 但在本实施方式中允许重复而计算。另外,hi是特别是有重要的生物化学信息的情况时使 用的,默认值使用0。S卩,由利用“Circle”等3D-1D法表明与目标蛋白稳定接触时导入的 Modified FP(经修饰FP)产生。接着,对total_density_of_atom(molecule)的数学式进行以下描述。数14
(其中,total为化合物的原子(molecule的atom)数。另外,sort_density_of_atom是从大到小依次重排density_of_atom的分布。艮口, 分子大时,加上大的数值,因此,total_density_of_atom变大。)以上,完成了利用相互作用计算部102f的相互作用分值的计算方法的一例的说明。利用樽拟退火的相互作用分倌的最大化接着,对基于利用上述的相互作用分值的计算方法计算所得的相互作用分值,并 按照利用最优化部102b的模拟退火将候选化合物的构象及配置最优化的处理的一例进行 以下说明。首先,结构变换部102g通过随机地变更候选化合物的可旋转的二面角而使构象 变化。在本实施方式中,构象变化进行1000次。该数目越多,可得到越好的结果,但需要对虚拟的候选化合物DB106a中所含的许多低分子化合物进行对接计算,因此认为,需要设定 为有限的次数大小,即使依赖于候选化合物的旋转自由度,预计算中该次数也足够。需要说 明的是,初期的构象可设定为注册于候选化合物DB106a中的相对于家族蛋白的结合构象。 最优化部102b对每个该变化的构象,在以下的处理中使用候选化合物的坐标。然后,最优化部102b从结合化合物指纹集106b的化合物指纹带(fp bands)随机 地选择10个化合物指纹。需要说明的是,不足10个时,使用化合物指纹带的最大数的一 半。更具体而言,从选择的化合物指纹带随机地选择候选化合物及结合化合物指纹集106b 的化合物指纹的原子坐标。将该状态称为指纹比对(fingerprint alignment)。而且,以其 对应关系进行最小二乘拟合,使用此时的拟合的均方偏差(rmsd)和拟合后的候选化合物 的原子坐标,利用上述的式子计算相互作用分值。然后,结构变换部102g在重复第二次以后将前次的状态存储于存储部106,保持 候选化合物的构象、即将候选化合物作为刚体进行并行、旋转,进行一个化合物指纹的增 加、减少及原子坐标集的对应关系的变更、追加。在本实施方式中,进行10000次该工序。在该过程中,最优化部102b进行Metropolis (Metropolis)判定。S卩,最优化部 102b与前次的相互作用分值相比,如果这次的相互作用分值大,则采用(accept)该候选化 合物的配置,相反,如果相互作用分值小,则基于以下的数学式计算采用概率(Paccept)。数15A分值=分值(这次)-分值(前次) BP,由于采用概率Paccept的范围为0 < Paccept ( 1,因此,最优化部102b此时 使0彡r彡1的范围的均勻随机数同时产生,如果为r < Pacc印t,则也采用相互作用分值 比前次小的情况。需要说明的是,在模拟退火(退火)过程中,T(温度)从30K开始,下降 到 0. 07K。这样,最优化部102b计算一个构象的相互作用分值的最大值,对初期产生的1000 个构象进行比较,将相互作用分值最大的结构预测为最佳的目标蛋白-候选化合物复合物 (Protein-Ligand complex)结构。此时,在对1000个构象赋序的过程中,可通过代替随机 地产生构象而利用遗传算法等,存储以前的构象,用某些算法改变配体结构,在计算时间或 最大值的搜索中下功夫。在1000次的计算过程中,为了确定配体构象的顺序,使用GOLD程 序中采用的基因算法等,可得到具有计算时间缩短或配体构象更接近于真实的可能性的最 小分值。以上,完成了利用模拟退火的相互作用分值的最大化的说明。[Tanimoto 才旨数在制作化合物指纹集时,作为衡量化合物间的类似的尺度,例如,可使用Tanimoto 系数(Tc)为0. 08以上的低分子化合物集。由Sybyl原子类型之类的各种化合物的化合物 指纹即化学描述符确定化合物指纹(fp)时,Tanimoto系数(Tc)如下所述进行计算。数16
(其中,a为化合物指纹存在于结合化合物和候选化合物两者的FP带(fpbands)的个数,b、c为fp仅存在于单侧FP带的个数。)对相同情况使用集合(assembly)进行说明时,如果将A、B设定为各个FP带具有 的化合物指纹的集合,则也可说为以下的式子。数17

(其中,number_of_fp(集合)为属于某集合(assembly)的化合物指纹的数。)以上,完成了 Tanimoto指数的说明。实施例实施例1接着,参照以下的图3 图29对应用本发明的本实施方式的实施例1进行详细说 明。需要说明的是,在以下的实施例中,有时用“CElib” (FP(fingerprint) set extracted from collected ligands in the bindingsite)这样的名称称呼结合化合物指纹集106b。半经骀地,诜择关干配体对梓的牛物学信肩、的方法的开发(Developmentof choosing biological information semi-empirically onthe LiRand Docking)]近年来,伴随计算机的速度的提高,在医药品开发的领域中,蛋白的立体结构预 测法及其立体结构的评价参考文献Terashi G,Takeda-Shitaka M, Kanou K, Iwadate M, Takaya D, Hosoi A, OhtaK, Umeyama HProteins 2007,69 (S8) :98_107得到改良。 例如,作为蛋白的立体结构的预测法之一的同源模建(Homology Modeling)利用注册 T PDB(Protein Data Bank)# # t ■ :Westbrook et alNucleic Acids Res. 2003 Jan 1 ;31(1) :489-91的结构的增加和除去膜蛋白进行参照的模型(Template)的增 加及CASP(蛋白结合预测技术的临界评估,the Critical Assessment of Techniques for ProteinStructure Prediction)中的盲试(blind test),其预测精度提高参考 文献Takeda-Shitaka, M. , Terashi, G. , Takaya, D, Kanou, K. , Iwadate, M. , Umeyama, H. Protein structure prediction in CASP6using CHIMERA and FAMS. Proteins 61, 122-127(2005)。而且,该同源模建的立体结构预测法的应用范围被扩大至突变 (mutation)的影响引起的活性变化的预测参考文献中町祐司、河野诚司、矩口真理 子、野口依子、木下承皓、加纳和彦、寺师玄记、竹田一志鹰真由子、近藤信一、熊谷俊一、 P04-08“Ala54Thr及Ala249Glu突变抗凝血酶的计算机 建模分析”、药物设计参考文献 Takede-Shitaka, M.,Takaya, D.,Chiba, C.,Tanaka, H.,& Umeyama, H. Curr. Med. Chem. 11, 551-558(2004)等方面。另外,与注册于PDB的蛋白的立体结构的增加同时,蛋白-配体复合物 (Protein-Ligand complex)的X射线结构分析结果也增加,在一个家族蛋白内,也常存在 分析完的多个X射线结构参考文献Edgar R.Wood et al CANCER RESEARCH 2004 64 6652-6659,参考文献 Jennifer et al J. Bio. Chem. 2002 Vol. 277,No. 48,46265-46272。另外,在上述CASP中,进行预测蛋白的结合位点(binding site)的残基的试验等参考文 献:Lopez, G, Rojas, A, Tress, M, Valencia, A Proteins, 2007,69 (S8) : 165—174、蛋白-配 体复合物(Protein-Ligand complex)的预测精度的提高的重要性也正在升高。另一方面,近年来,盛行通过实验确定病原蛋白(参考文献Nature等),抑制所述 蛋白的抑制剂的设计的必要性正在逐渐升高。作为用于抑制剂的设计的有力的方法,有基于目标蛋白的立体结构的抑制剂设计 (SBDD),目前正在进行使用蛋白-配体复合物(Protein-Ligand complex)预测软件(所谓 的对接软件)的虚拟(In-silico)筛选。其中,图3是表示利用有效地使用现有的对接软 件和蛋白_配体复合物的多个X射线结构或NMR结构的生物信息学的本实施例所述的对接 方法的状况图。如图3所示,在已知的对接软件中,AutoDock参考文献Goodsellet al J. Mol. Recognit 1996 91-5、DOCK参考文献Ewing et al JComput Aided Mol Des. 2001 15(5)411-28、GOLD参考文献Gareth et al J Mol. Biol. 1997 267,727-748等采 用使用氢键、疏水性相互作用、静电相互作用之类的经典物理学势函数的第一原理方法 (Ab-initio Approach) 0利用各种各样的验证,这些现有的软件可以良好的精度进行对接 (例如利用隐藏正确结构的盲试(blind test)验证可在正确结构中以rmsd2.0以下预测 的比例)参考文献0noderaet al J Chem. Inf. Model. 2007,47,1609-1618,参考文献 Michael etal J. Med. Chem. 2007,50,726—741。另外,为了精度良好地对接可旋转的键多的化合物,也研究在配体结合位点 (ligand binding site)预先采用势函数配置化合物的片段这样的方法参考文献Budin et al Biol Chem. 2001 382(9),1365-72。为了使用现有的对接软件,向目标蛋白对接抑制剂候选化合物,并预测蛋白-配 体复合物(Protein-Ligand complex)的结构后,从虚拟化合物库中选择“中的”化合物 (Hit Compound),也报道有许多以下尝试由已知的蛋白-配体复合物(Protein-Ligand complex)的结构进行蛋白和配体间的距离、经典物理学能量的计算等,提取相互作用信 息,进行用于选择众多“中的”化合物的再评价参考文献Sukumaran et al Eur. J. Med. Chem. 2007,42,966-976,参考文献Zhan et al J. Med. Chem. 2004,47,337-344。但是,上述一系列的研究表明,虽然现有的对接软件可以良好的精度预测蛋 白-配体复合物(Protein-Ligand complex),但是,该情况是指,与直接从虚拟化合物库中 选择众多“中的”化合物(HitCompoimd)不一致(没有直接联系)。BP,目前,虽然可精度良好地预测蛋白-配体复合物(Protein-Ligand complex) 的结构,但还必需要求开发出可从虚拟库检测出许多“中的”化合物(Hit Compound)的系 统,这在制药中是必不可少的。在这种状况下,本申请发明人开发出下述的系统ChooseLD(CH00se information Semi-Empirically on the Ligand Docking)在蛋白-配体复合物(Protein-Ligand complex)相互作用的评价中不使用经典物理学的势函数,而由注册于PDB的相互作用已 知的蛋白-配体复合物(Protein-Ligand complex)的生物化学信息有效地选出有效的信 息,进行对接并预测蛋白-配体复合物(Protein-Ligandcomplex)的结构,且可检测出许 多“中的”化合物(Hit Compound) 0另外,利用本申请发明人的方法,在蛋白-配体复合物
29(Protein-Ligandcomplex)的相互作用中不使用经典物理学势函数。因此,本发明的方法期 待在不能称之为相互作用的物理学能量得到最优化的蛋白-配体复合物(Protein-Ligand complex)结构的最优化中作为物理方法的CHARMM参考文献Brooks,R. B, Bruccoleri, E. R. , Olafson, D. B. , States, J. D. , Swaminathan, S. & Karplus, M. CHARMM Aprogram for macromolecular energy, minimization, and dynamicsealculations J. Comp. Chem. 4 187-217(1983),AMBER参考文献Case,A.D.,Cheatham III, E. T. , Darden, T.,Gohlke, H. , Luo, R. , Merz Jr. , M. K. , Onufriev, A. , Simmerling, C. , Wang, B. & Woods, J. R. The Amber Biomolecular Simulation Programs JComput Chem 26 1668-1688 (2005)]及量子 化学参考文献Fedorov, G. D. & Kitaura, K. Extending the Power of Quantum Chemistry toLarge Systems with the Fragment Molecular Orbital Method J. Phys. Chem. Ill 6904-6914 (2007)有效地发挥作用。本实施例1的概要其中,下面,使用图4对本实施例的概要进行说明。图4是利用本实施例 (ChooseLD)的蛋白-配体对接的原理构成图。其中,在本实施例中,库配体(LIBRARY LIGANDS)相当于结合化合物的集合,CELib相当于结合化合物指纹集106b。其中,在图4中,各圆柱表示数据的集合,椭圆表示输入信息,长方形表示输出结 构。平行四边形为作为化学描述符的化合物指纹(FP fingerprint)。由于全部的过程在 计算机(虚拟筛选装置100)上进行,因此,输入的信息为作为电子信息的文件。即,虚拟以 PDB形式所代表的形式记载的目标蛋白的三维坐标文件、对接的配体的三维坐标文件。在图4中,箭头主要是指数据的集合的压缩或输入信息的修饰等变换操作,变换 操作可指定详细的条件。但是,这些变换操作规定既定的值,如果输入信息以文件形式且输 入的蛋白的坐标在物理化学上为正常,则可以全自动地得到输出。即,如果输入目标蛋白 的三维坐标文件和对接的候选配体的三维坐标文件,则输出蛋白_配体复合物结构的三维 坐标文件。蛋白的三维坐标及氨基酸序列作为用于同源性检索、相当于结合化合物指纹集 106b的FP库的构建、对接计算的蛋白立体结构的三维坐标而被使用,目标的候选配体相当 于候选化合物,其用于候选蛋白特异性FP带、配体的三维构象搜索。S卩,如图4所示,首先,本实施方式所述的虚拟筛选装置100通过同一性检索部 102d的处理,对于目标蛋白,对PDB等蛋白结构数据库进行同一性检索,通过化合物指纹制 作部102a的处理,利用相同的蛋白和结构比对进行拟合(fitting),与转换到目标蛋白的 坐标系的三维坐标一同,提取化合物指纹,制作相当于结合化合物指纹集106b的目标蛋白 定向性配体群(C)。然后,虚拟筛选装置100向相当于医药品化合物DB106c的医药品(druggable)FP 数据库⑶查询目标蛋白定向性配体群(C),以交集(c) A⑶得到目标蛋白特异性FP带 (L)。其中,目标蛋白定向性配体群(C)可通过新化合物指纹追加部102e的处理,追加经修 饰的FP等虚拟FP。接着,虚拟筛选装置100从虚拟配体库或基准集的目标蛋白和进行对接的配体 (对接的配体)即候选配体提取化合物指纹,制作相当于候选化合物DB106a的候选配体的 FP 带(R)。然后,虚拟筛选装置100通过结构变换部102g的处理,使候选配体的构象变化,在目标蛋白定向性配体(C)和候选配体的FP带(R)间进行FP比对。然后,虚拟筛选装置100通过最优化部102b的处理,使用相互作用分值函数在目 标蛋白的结合位点对接候选配体时,一边使用模拟退火(SA)法使相互作用分值最优化,一 边进行目标蛋白-候选配体复合物的三维结构预测。以上为本实施例的概要。库配体所谓库配体(LIBRARY LIGANDS),相当于结合化合物的集合。即,虚拟筛选装 置 100 在通过利用 PSI-Blast参考文献Altschul et alNucleic Acids Res. 1997 27(17)3389-402的同一性(Homology)检索检测所得的蛋白中,所述蛋白为蛋白-配体 复合物(Protein-Ligandcomplex)时,使用作为立体结构比对产生程序的CE参考文献 Shindyalov et al Protein Engineering 1998 11 (9) 739-747进行目标蛋白和同源蛋白 间的比对,利用最小二乘法(least square fitting)与目标蛋白拟合。然后,利用所述最 小二乘拟合的Z-Score为3. 7以上时,库配体将结合配体转换到目标蛋白的坐标系,仅提取 结合配体。需要说明的是,在本实施例中,Z-Score低于3. 7时,不用作结合化合物。该数值的 根据是,依据 CE 时,“3. 7 4. 0-twilight zone wheresome similarities of biological significance can be seen ; ”(呈现具有生物学意义的相似性的中间区域),因此,采用 3.7以上。同源性检索的最低同源性在本实施例中设定为同一性(Homology)0. 以上。 即,用同源性检索检测出的类似蛋白的大部分利用CE进行拟合。FP的定义及FP带的构津对FP带(fp band)的制作方法,以下参照图5进行详细说明。其中,在定义本 实施例中使用的化合物指纹(fp fingerprint)之前,对化合物指纹的解释进行说明。化 合物指纹(fingerprint,以下称为“FP”。)是在化学信息学领域中用于计算表示化合物 的特征的向量或化合物间的相似性而使用的计算机上的表现法之一(Swamidass,S. J. & Baldi, P. Mathematical Correction for Fingerprint SimilarityMeasures to Improve Chemical Retrieval J. Chem. Inf. Model. 47,952—964(2007))。在本实施例中,不以FP的正确的解释为目的,为了避免混乱,下述的用语统一。用 要素中具有考虑原子类型(或原子类型)、原子结合的顺序等的组合的向量表现一个分子 时,将向量的要素设定为“FP”,将向量设定为“FP向量”。在本实施例中,有时在向量的要 素中仅附加原子类型的字符串表述以上的信息,所述附加信息也解释为表现分子的特征之 一,是指其向量的要素时,也设定为“FP”,将要素中具有所述FP的向量与通常的“FP向量” 区别,设定为“FP带”。该情况是指“FP带”也同时具有“FP向量”中的各要素为原子类型 的性质。其中,图5是表示FP(指纹)的制作方法的一例的图。在本实施例的ChooseLD法中,以使用相互作用已知的蛋白_配体复合物结构、以 满足自由能的最小化的方式预测对接的未知的配体结构为目的,为了实现该目的,由相互 作用已知的配体定义作为保持有部分的结合自由能的部件的FP (指纹)。图5中作为一例 表示的化学物质的物质名为AZD2171 (Cancer Res 2005 ;65 (10), May 15,2005) 如图5所 示,通过使用给予的结合规则信息搜索原子而制作FP。搜索的原子数为2、3、4个(该数是 有理由的,因此在后面叙述)。各个包围的线是指计算的FP。a表示的FP为搜索到2个原 子的情况,b表示的FP为搜索到3个原子的实例。c和d表示的FP分别为4个的情况,该情况允许经过相同的原子。e表示的FP搜索到坐标不同但相同的原子种类,且加上后述的 相互作用分值函数的FP的重复度。g卩,图5的化合物的包围键上的线的部分是指在ChooseLD法及化合物的相似性的 比较中也使用的FP的原子类型表述。以化合物上的任意的原子为基点,使用深度优先搜 索法(Chiba et al C algorithmZENKA 1995 ISBN4-7649-0239-7),按照给予的配体的原 子间结合信息经过原子,经过的键的数设定为1、2、3。即,由苯环和萘环构建的原子类型表 述相同,区别不出环结构差异。一个原子使用Sybyl原子类型(Tripos Inc. , 1699 South Han ley Road, St Louis, M063144-2913,USA (http: //www. tripos, com))表现,其中定义以 AMBER99 (J. Comput. Chem. 26,1668-1688(2005))为参考的原子量、原子半径、可键合数。在 该时刻仅考虑FP的原子类型,不考虑经过的原子坐标。其中,图6为表示本实施例中使用 的原子的字符串列表。利用Tanimoto系数的化合物间的相似件计算下面,对利用Tanimoto系数的化合物间的相似性计算方法进行说明。其中,图7 是表示利用Tanimoto系数的化合物间的相似性计算方法的示意图。在本实施例中,为了计算化合物间的相似性而导入Tanimoto系数(以下称为Tc) (J. Chem Inf. Comput. Sci. 40,163-166 (2000))。一般而言,Tc 为将由两位即 0 或 1 构成的 向量的类似度数值化而得的值。如图7所示,在本实施例中,对成为对象的一个低分子化合 物,使用由上述导入的FP构建法制作FP向量,如果存在向量上定义的FP,则赋予1,如果不 存在,则赋予0。由此制得的长度相同且对应的成分由表示相同FP的两个向量评价化合物 间的相似性。Tc利用下述的数学式计算。其中,两个向量对应的位同时为on时,在a上加算1, 如果仅一个向量位为on,则在b或c上加算1。S卩,不加上相互off时的d,在Tc计算中不 考虑。例如,在图7所示的2个位列间,为& = 9^+0 = 7,!^ = 9/(9+7) = 0.5625。数I8
在本实施例中,FP带(fp bands)由属于结合化合物的库配体(LIBRARAY LIGANDS)的低分子化合物的集合得到,比较来自形成集合的低分子化合物的某两个FP带 (fp bands)时,Tanimoto系数(Tc)必需为0. 08以上。换言之,在上述数学式中,a为FP 存在于两个 FP 带中的个数(the number of fp existing in each fp bands)。另夕卜,b、c 为 FP 仅存在于一个 FP 带的个数(the number of fp existingin the other fp band)。使用集合(assembly)说明相同的情况时,如果将A、B设定为具有各个带的FP的 集合,则如下表示。数19
其中,number_of_fp (集合)为属于某集合assembly的fp的数。FP库的构建
所谓FP库,相当于结合化合物的集合,为本实施例的ChooseLD法中使用的FP的 原子类型表述的来源,而且为成为注册于构建的FP的原子坐标的起源的配体群。通常,从 目标蛋白的一级结构、即由将氨基酸序列设定为查询序列的同源性检索等检测的家族蛋白 收集,但不限于家族蛋白,即使是被认为结合于目标蛋白的活性位点等目标位点的配体或 蛋白、肽等,只要需要,就可追加。在本实施例的ChooseLD法中,主要由家族蛋白构建FP库。在通过利用 PSI-Blast (Nucleic Acids Res. 27,3398-3402 (1997))的同源性检索检测得到的三维 坐标结构已知的蛋白中,为蛋白-配体复合物时,使用CE(Protein Engineering 11, 739-747 (1998)),进行目标蛋白和家族蛋白的立体结构比对。CE为安装有将两个蛋白与氨 基酸序列相似性无关地使用立体结构类似的部分进行比对的算法的程序,在其它立体结构 比对的程序中,存在 Dali (J. Mol. Biol. 233,123-138 (1993)),T0P0FIT (Protein Science 13,1865-1874(2004))等。描述这些主要的差异时,CE通过从N末端依次拟合氨基酸序列 等的改良,可快速地得到结果,但在对象蛋白中存在结构域交换等时,难以精度良好地进行 比对,此时,使用进行不依赖于氨基酸序列的顺序的比对的Dali等的一方精度好。在本实施例的ChooseLD法中,主要拟合由PSI-Blast检测的家族蛋白,因此,使用 计算时间短的CE。使用CE输出的比对,利用最小二乘拟合来与目标蛋白拟合。CE的比对 的Z-Score为3. 7以上时,将结合配体转换到目标蛋白的坐标系,仅提取结合配体。即,在 本实施例中,仅将结构上与目标蛋白类似的蛋白用作家族蛋白。FP带的构津FP带作为附加信息,为附加关联有一个或多个原子坐标的FP的向量,由属于FP库 的结合配体的集合得到。在属于得到的集合(FP库)的结合库中,包含目标蛋白的坐标系 中的坐标及用Sybyl原子类型(Atom Type)表示的原子类型及单键、双键、芳香环键等键合 规则信息。其中,图8为表示在目标蛋白的结合位点上对接配体时的FP的一例的示意图。 在图8中,由几个几何图形(长方形、菱形或椭圆)构成的半透明的部分表示各种FP。“分子内FP(图8的长方形)”为仅使用配体分子内的信息而构建的FP,为使用仅 由属于FP库的一个配体的内部得到的原子类型信息和结合信息而制成的FP。一个FP以配 体分子内的一个原子为起点,基于上述的FP的原子类型表述的构建法,经过1、2或3次结 合的原子,构成图8那样的没有分支的最大4个的原子。在本实施例中,最小的FP由2个 原子构成。在一次FP构建的尝试中,一次搜索的原子在其尝试中没有经过两次,没有经过 的键时,将此刻的FP的原子类型表述和原子坐标注册于FP带。不排除其FP已经注册于FP 带的情况,在一个FP中注册多个原子坐标。其中,图9是表示将从搜索路径得到原子坐标 并注册于FP带的过程的一例的图。在图9中,下面的矩阵是指原子坐标,其行数表现构成FP的原子的个数。例如,如 果为由4行3列构成的矩阵,则表示在其FP中含有4个原子坐标。“经修饰的FP”(图8的菱形)是将与给予的结合信息接近的原子之间假定为虚拟 的键而制成的FP。如果存在结合的原子、及存在实际上没有结合但没有特别指定的情况下 在1人以内原子,则判定为虚拟的键,经过1、2或3次键合,构建由没有分支的最大4个原子 构成的FP。在本实施例中,最小的FP由2个原子构成。在与“分子内FP”的构建的操作同 样,尝试一次FP制作时,一次搜索的原子没有经过两次,没有经过的键时,将此刻的FP的原
33子类型表述和原子坐标注册于FP带。由此,在配体分子内的键的基础上,制作含有配体分 子间的键的FP,因此,得到实际上不存在的FP。即认为,构建了物理化学上不能存在的键的 FP (例如 N. am, N. am, N. am, N. am 之类的 FP)。因此,在本实施例中,由作为物理化学上存在的医药品的三维坐标数据库的MDL Comprehensive Medicinal Chemistry (MDL CMC) Library (相当于医药品化合物 DB106c。) 制作类药的FP向量,与由FP库得到的FP带的FP向量部分比较,使两者中所含的FP的原子 类型表述残存于目标蛋白特异性FP带。在使用任意的FP (fingerprint)的计算的过程中, 使用医药品数据库或化合物数据库提取化合物信息,由此,对成为该基础的数据库,以药物 吸收或药物代谢或药物排泄或药物毒性等为指标,使用将(fingerprint) FP等作为整理的 基础的基础数据单元,制作预先整理好的对药物吸收或药物代谢或药物排泄或药物毒性特 殊化了的医药品数据库或化合物数据库,进行相同的一系列操作。具体而言,通过求出来自配体库的FP向量和来自医药品库的FP向量的交集,仅将 存在于医药品化合物DB106c的FP注册于FP带,在本实施例中忽略医药品化合物DB106c 中不存在的FP,由此构建结合化合物指纹集106b。其中,图10是表示本实施例中的FP带 的压缩步骤(压缩指纹带的方法步骤,method step of shrinking fingerprintband)的 一例的图。如图10所示,比较由MDL CMC Library得到的FP带(A)和由目标蛋白定向性配 体群得到的FP带⑶,除在两者中存在FP的情况之外,从(A)或⑶的FP带除掉(用图 10的X记号表示)。其结果,来自库配体的FP (Library Ligand FP) 一定存在坐标。以上,完成了本实施例中的FP带的构建方法的说明。需要说明的是,在本实施例 中,在全部的FP带构建的过程中,允许一个原子属于多个FP。另外,如果在FP带中得到的 FP已经注册,则追加FP的坐标,不存在时,在FP带中追加新的FP并追加坐标。另外,允许 一个原子属于多个FP。对成为对接的目标的候选配体(对接的配体)也进行同样的操作, 制作来自候选配体的FP带(对接的配体的fp带)。FP带的比对在FP带中附加关联有原子集的坐标,比较两个FP带时,不仅使用原子类型,也使 用附加关联的坐标。即,FP带的比对是指进行由候选配体得到的FP带和由结合配体的FP 库得到的FP带的比较。比较经过以下的(1)、(2)的过程而进行。(1)构成FP的原子类型表述的字符串完全一致的比较在由对接的候选配体得到的来自FP带的FP向量(位列(1))和由含有结合化合 物的FP库得到的来自FP带的FP向量(位列(2))中,将FP的有无进行位化,选择两者的 位为on的组合(参照图7)。(2)对注册于选择的FP的原子的坐标向量之间赋予对应关系的过程图11是表示对坐标向量之间赋予对应关系的过程的一例的示意图。一个FP由来 自对接的候选配体分子的原子坐标向量(1)和来自FP库的结合配体的原子坐标向量(2) 构成,对该原子坐标间赋予对应关系。进行这两个过程(1)、(2)即为本实施例中的FP的比对。另外,所谓“FP比对不 同”,是指1.两个位同时为on的FP的总数
2.对应的FP的种类3. FP内部的坐标的对应关系中的至少一个不同。即,所谓“使FP比对变化”,是指使其中的至少一个变化。“至 少一个”是因为,FP的原子类型变化时,变化前的FP的坐标的对应关系消失,在变更后的FP 中重新赋予对应关系,因此,坐标的对应关系也必然变化。相互作用分倌(FPAScore)下面,对本实施例中的相互作用分值FPAScore进行详细说明。FPAScore (指纹比 对分值)在本实施例中如下定义基于FP为部分结合自由能的集合的ChooseLD法的假设, FPAScore越高,越满足相互作用已知的家族蛋白-结合配体复合物结构。FPAScore同时考 虑FP的拟合的精度和用于比对的FP的数、FP的密集度及蛋白-配体复合物相互作用,评 价目标蛋白-候选配体复合物结构。在本实施例中,通过搜索由上述操作得到的FP带的最 佳的比对,预测最佳的目标蛋白-候选配体复合物。S卩,在本实施例中,相互作用分值FPAScore以以下的数学式定义。其中,aligned_fp 是指比对的 FP,fp_rmsd是指利用使用所述比对的最小二乘拟合计算所得的rmsd,molecule是指候选配体与目标蛋白对接后的复合物的坐标。下面,对各项进行详细说明。数20FPA Score = F(aligned_fp, fp_rmsd, molecule coordinate.)= BaseScore (fp_rmsd, aligned_fp)*fp_volume (molecule)*fp_contact_surface(molecule)<1. BaseScore (fp rmsd, aligned fp)工贡 >该项是以考虑FP的一致度及密集度的函数定义的项,即,为评价已知的FP的使用 强度的函数,用以下的数学式表示。数21
其中,In为自然对数(自然对数)。另外,kl为确定使FP的拟合的精度绝对有多严密的比例因子。比对的FP的拟合 的rmsd大时,分母变得越大,BaseScore变得越小。是指排除即使FP的一致度大、表示注 册于所述FP的FP的原子坐标的拟合的精度的rmsd也大(差)的情况。在本实施例中,将 kl设定为4. 0。fp_rmsd是利用使用所述比对的最小二乘拟合计算的rmsd。aligned_fp为 此时的fp的对应关系、即比对的FP。其中,在上述数学式中,raW_SCOre(aligned_fp)用以下的式子表示。其中,assinged_score(i)为预先赋予第i个比对的FP的分值。n为比对的FP的总数。所谓比 对的FP,是指目标蛋白特异性FP带中的原子类型和原子坐标的集(参照上述“FP带的比 对”及图11)。S卩,在FP的比对中,即使FP为相同原子类型,如果原子坐标不同,则也是指 不同的FP。数22
其中,在上述数学式中,aSSigned_SCOre(i)为预先赋予第i个比对的FP的分值, 用以下的数学式表示。该分值相对由CElib等配体库得到的FP,如下所述赋予。数23(total_atom( E Casel_S+ln(N+l). . . easel(j = 0assinged_score (i) = {(total_atom( E Case2_S+ln(Neighbor_atom+l). . . case2 其中,上述数学式的Total_atom(i)表示构成FP的原子坐标的个数。Casel_S、 Case2_S、Case3_S (上面未叙述)为预先赋予构成FP的原子的分值,分别在下述的情况下使用。Casel_S为在构成上述“分子内FP”时赋予各原子的分值。没有特别指定的情况, 使用5. 0。例如,搜索成功时,对构成FP的各原子赋予分值Casel_S (使用默认值5. 0),对
由4个原子构成的FP赋予20. 0,如果为3个原子,则赋予15. 0分。接着,对Case2_S进行叙述。其为在构建上述“经修饰的FP”时赋予各原子的分 值。没有特别指定的情况,使用2. 5。最后,对Case3_S进行描述时,其为在通过生物化学信息或能量计算(“circle” 等)有可能存在原子时赋予的任意的标量值。本实施例中不使用,不在使用基准 集的对接性能(结合模式预测性能)验证计算及虚拟筛选性能中使用。在本实施例中,在Casel_S、Case2_S、Case3_S之和的分值的基础上,在分值中加 入属于FP库的原子的密集度的自然对数值。其在FP的分值上加上属于FP的原子坐标集 的原子和在1.0人以内的属于其它FP的原子坐标集的原子个数(n_neighb0r_at0m(i))的 自然对数,该项可说是优化密集的FP的项。S卩,在Casel和Case2中,在属于同一 FP的坐 标间,在FP的坐标的分值上加上距离位于dist (默认值1.0人)以内的原子坐标集的原子 个数(Neighbor_atom)的自然对数。<2. fp volume (molecule)项 >该项为在使用比对的FP将候选配体与目标蛋白对接后评价其复合物结构的函
36数。即,为评价对接后的候选配体的分子坐标占由FP库的结合配体得到的FP构成的空间 的个数(即以怎样的程度充满由来自FP库的FP构成的空间)和目标蛋白的冲突的函数, 用以下的数学式表示。其中,molecule表示候选配体的对接后的原子坐标。数24
其中,nafp(覆盖指纹的配体原子数,Number of Ligand Atomcovering Fingerprint)为在使用构成库配体(LIBRARAY LIGAND)的低分子的原子制成的固有网格 点区域中分子(molecule)的坐标所占的个数、即候选配体占有使用构成FP库的结合配体 原子制成的固有网格点区域的坐标的个数。利用nafp表示候选配体分子(molecule)满足 多少坐标固定的FP(指纹)。nap(覆盖蛋白的配体原子数,Numberof Ligand Atom covering Protein)为在由目标蛋白的原子坐标制成的固有网格点区域中molecule (对接后的候选 配体分子)的坐标所属的数,表现与目标蛋白的构成原子的冲突程度。另外,k2、k3分别为系数,在没有特别指定的情况(默认值)下,分别使用1.0, 但可分别根据目标蛋白的生物化学信息、诱导契合的程度而变更。即,k2为重视占有其目 标蛋白的家族蛋白的结合配体集体的空间的区域的常数,如果系数增大,则大的配体可得 到大的分值。k2值具有根据目标蛋白的结合域的大小也可成组化的可能性。另外,k3为 候选配体冲突其目标蛋白所占的区域的允许度因子,为重视候选配体原子和目标蛋白原子 的冲突的系数。如果k3变大,则不允许目标蛋白和候选配体冲突。关于k3,具有可将蛋白 (protein)的活性位点的柔韧度等成组化的可能性。其中,图12是使用原子数为31的配体 表示nafp和nap的具体例的图。如图12所示,在候选配体中与目标蛋白冲突的原子数为10个,在来自FP库的网 格点中原子所属21个,如果k2值、k3值为1.0,则fp_volume (molecule)项为In (22/11) =0. 693这样的值。在该项的函数的性质方面,nafp为31 30、即冲突的个数为0个 1 个的变化率最大。另外,配体原子的近一半发生冲突时,成为负值,因此,非常难以采用。即, 在FPAScore中,以对应于表现作为经验性物理函数的分子间引力-排斥项的伦纳德-琼斯 势的分值定义。需要说明的是,在关于将EGFR用作目标蛋白的虚拟筛选性能的项中,在后 面叙述k2值、k3值的最优化的一例的结果。<3. fp contact surface (molecule)项>接着,fp_c0ntact_surface项为考虑相对候选配体的对接后的结构其原子坐 标对目标蛋白的接触度及其坐标对FP库的归属度的函数,用以下的数学式表示。其中, molecule是指候选配体的对接后的原子坐标,atom(i)为该对接后的第i个原子坐标,n是 指原子数。即,该式子与上述fp_V0lume的数学式同样,为对候选配体对接于目标蛋白后 的复合物结构进行计算、考虑候选配体原子坐标与目标蛋白的表面的接触度及相对于由FP 库得到的FP原子的候选配体原子坐标的归属度的函数。数邪
37
在上述数学式中,density_of_atom用以下的数学式表示。其中,nfpcontact为 以没有特别指定时(为默认值)为3.8人以下与属于FP库的FP的原子坐标接触的目标蛋 白的原子的个数,natom为属于同一网格点的来自FP库的结合配体化合物的原子数。此 时,相同原子类型的配体分子可存在多个,对为相同配体分子且PDB的ID代码不同的情况, 也全部包含在本实施例中。hi为有特别重要的化学信息的情况下使用的变量,没有特别指 定的情况下(为默认值)使用0,假定利用CIRCLE(Terashi G,Takeda-Shitaka M,Kanou K, IwadateM, Takaya D, Hosoi A, Ohta K, Umeyama H Proteins, 2007,69 (S8) 98-107)等 3D-1D分值、放入不依赖于家族蛋白的FP(经修饰的FP或创建性FP等)时使用。下述的数 学式在配体原子坐标x不属于由FP库得到的FP (在3.8人以下不接触)的情况为0,属于的 情况按照上述的式子计算分值。数洸density_of_atom (x) = 0 或 In(nhpcontact+natom+hi)图13是表示目标蛋白的活性位点附近的来自FP库的配体的位置的一例的图。如 图13所示,由于在目标蛋白附近被椭圆(点划线的圆)所包围的附近的FP接近于目标蛋 白,因此,优化nfpcontact。而且,黑圆附近密集有来自FP库的结合配体原子,优化natom。 即,对接的候选配体的原子坐标接近这些部分时,利用上述数学式优化分值。另夕卜,在上述 fp_contact_surface 的数学式中,total_dense_of_atom (molecule) 用以下的数学式表示。其中,total为候选配体分子的原子数。另外,S0rt_denSity_0f_ atom从大到小依次重排上述数学式的denSity_0f_at0m的标量值的分布。即,候选配体分 子大时,total_dense_of_atom 变大。数27
以上,完成了本实施例中的相互作用分值FPAScore的说明。接着,为了将如上所述定义的FPAScore函数最大化,参照图14对本实施例中的 模拟退火(以下称为“SA”。)的实施方法进行说明(J. Mol. Graphics Mod. 18. 258-272, 305-306(2000))。图14是表示模拟退火过程的一例的概念图。首先,由候选配体的构象变化,对至得到其结构中的FPAScore为最大的对接结构的步骤1 3的1个循环进行叙述。< 步骤 1>首先,通过随机地变更存在于成为对接对象的候选配体(对接的配体)的可旋转 的二面角,使构象变化。在本实施例中,候选配体原子的范德华半径使用以AMBER99为参考 的值。< 步骤 2>将构象变化了的候选配体用作刚体,使其与配体结合位点(thebinding site)对 接。以下的并行旋转对步骤1中产生的一个构象进行。首先,从上述的FP带随机地选择10个FP的原子类型。不足10个的情况,使用FP 带的FP向量的尺寸的最大数的一半。而且,随机地选择注册于选择的FP的原子坐标集。将 其设定为比对的FP,按其对应关系进行最小二乘拟合,计算候选配体的原子坐标和来自FP 库的原子坐标间的rmsd,使此时得到的并行及旋转矩阵对目标配体进行作用,得到一个目 标蛋白_候选配体复合物结构。然后,使用比对的FP、rmsd、目标蛋白-候选配体复合物结 构计算FPAScore。其中,图15是示意性地表示用于计算FPAScore的FP比对及最小二乘拟 合的图。如图15所示,在FP带的比对项中如上述所述在(D)、(E)的各FP的每个类型的坐 标矩阵之间进行FP比对,<1>在来自配体库的FP向量⑶和来自候选配体的FP向量(E) 中,选择两者的位为on的组合。从比对中除去在该选择过程中不一致的FP。<2>然后,在 一个FP中,进行来自候选配体分子的原子坐标向量(1)和来自FP库的结合配体的原子坐 标向量(2)的坐标间的对应附加,基于最小二乘拟合计算相互作用分值。模拟退火引起的状态变化为FP的变更、增加、减少过程。即,该状态变化通过重复 从来自对接的候选配体的FP及来自配体库的FP选择属于所述FP的坐标的过程来进行。 然后,模拟退火相对比对的FP,增加或保持一个FP的原子类型,进行注册于FP的原子坐标 集的对应关系的变更或追加和FP的减少,改变比对并将FPAScore最大化。从一个FP选 择一个以上原子坐标集或即使有坐标FPA分值也减少的情况,进行Metropolis判定,如果 采用,则保持状态。即,在SA过程中,进行Metropolis判定,与前次的分值相比,如果这次 的分值大,则采用,不是这样的情况时,基于以下的数学式计算采用概率Paccept。此时,使 0彡r彡1的范围的均勻随机数同时产生,如果!" < Pacc印t,则采用分值低的情况。在本 实施例中,T (温度)从30.0K开始,下降到0.07K。由此,对一个构象计算FPAScore的最大 值。数28A分值=分值(这次)_分值(前次)Paccept = exp ( A Score/T)使用由此得到的FP带,利用SA法将FPAScore最优化。需要说明的是,在本实施 例中,SA进行10,000次。< 步骤 3>将对一个构象的由上述工序2得到的最大的FPAScore与其结构一同保存于存储 部的结构库。以上为用于一个构象的FPAScore最大化的1个循环的处理。
< 步骤 4>在本实施例中,由于设定为进行1000次构象的变化,因此,不足1000次时,以再尝 试上述工序1 3的方式进行控制。需要说明的是,构象产生次数越多,可得到越好的结 果,但需要对虚拟的化合物数据库中所含的许多低分子化合物进行对接计算,因此,必需止 于有限的次数的大小,即使依赖于化合物的旋转自由度,在本实施例的预计算中该次数也 足够。分别对产生的1000个构象计算相互作用分值FPAScore的最大值时,结束循环 的重复处理,对保存于结构库的1000个构象的最大FPAScore进行比较,将分值最大的对 接结构作为该候选配体的最佳构象并输出目标蛋白-候选配体复合物(Protein-Ligand complex)的预测结构。结果和考察(材料)、方法相关对本实施例,下面叙述“结果和考察(材料)”。在本实施例描述的FP库的构建中, 组合 Perl (http //www, perl, com/)、Ruby (http: //www. ruby~lanR. orR/0、bash (http: // www.gnu.org/software/bash/)等命令解释程序、脚本语言进行开发。另外,改变用本实 施例的方法描述的对接的候选配体的构象,用C/C++描述搜索使FPAScore最大化的蛋 白_配体复合物结构的算法。编译器使用Intel (注册商标)C++Compilerl0. 0。对使用的 计算机的构成进行叙述时,使用最多200台0S为Red Hat Linux、ScientificLinux、CPU 为Pentium4、Core2Duo、Opteron、内存为512M、1024M、2048M的计算机的构成不同的内存 非共有型计算机集群。参考性地描述计算时间时,相对后述的EGFR的激酶区域,进行MDL AvailableChemicals Directory (MDL ACD)Library(Symyx Technologies, Inc. Corporate Address 3100 Central Expressway, Santa Clara, CA95051)的 20,000 化合物的虚拟筛选 时,每对一个目标蛋白对接一个候选配体的1CPU的计算时间的中位值为10. 2分钟,平均值 为18. 6分钟。最小计算时间为4. 8分钟,最长计算时间为1077分钟。其中,图16是表示 EGFR虚拟筛选中的计算时间的分布的图。如图16的EGFR虚拟筛选中的计算时间的分布所示,根据对接的配体的不同,有时 非常耗费时间。其原因之一被认为是对接难以搜索避免内部冲突的构象的配体的情况,随 机选择可旋转的键是原因,可知,需要以难以引起分子内冲突的方式旋转。另外,本实施例 的ChooseLD的计算时间依赖于目标蛋白的大小、FP库中所含的配体数及配体的分子量、候 选配体的分子量、可旋转的键的数,如果压缩目标蛋白的配体结合位点,并进行FP库的压 缩,则可更快地得到预测结构。在本实施例中,为了考察ChooseLD的对接性能,从Protein DataBank(Nucleic Acids Res. 31,489-491(2003))得到蛋白-配体复合物结构。对所使用的基准参照图17及 图18进行说明。图17是表示基准的概要的一例的图。另外,图18是表示向PDB的注册数 的年度分布的图。如图17所示,所用的基准集的数为分别具有配体的218种蛋白。85种PDB结构 (图17的左)用于制作分值方程式(Score equation)。另外,133种PDB结构(图17的 右)用于与其它对接法(DOCK、AUT0D0CK、GOLD等)进行比较(以下表示PDBID)。85 PDB 结构1G9V 1GKC 1GM8 1GPK 1HNN 1HP0 1HQ2 1HVY 1HWI 1HWW 1IA1 1IG3 1J3J 1JD0 1JJE 1JLA 1K3U 1KE51KZK 1L2S 1L7F 1LPZ 1LRH 1M2Z 1MEH1MMV 1MZC
401N1M1N2J1N2V1N46 1NAV 10F1 10F610PK 10Q5 10WE 10YT 1P2Y1P621PMN1Q1G1Q411Q4G1R1H1R55 1R58 1R90 1S191S3V 1SG0 1SJ0 1SQ5 1SQN1T401T461T9B1T0W1TT11TZ81U1C1U4D 1UML 1UNL1U0U 1V0P 1V48 1V4S 1VCJ1W1P1W2G1X8X1XM61X0Q1X0Z1Y6B 1YGC 1YQY 1YV3 1YVF 1YWR 1Z95 2BM2 2BR1 2BSM
133 PDB 结构1AAQ 1ABE 1ACJ1ACK 1ACM 1AC0 1AEC 1AHA1APT1ASE1ATL1AZM1BAF1BBP1BLH 1BMA 1BYB 1CBS1CBX 1CDG 1CIL 1C0M 1C0Y’1CPS 1CTR1DBB1DBJ1DID1DIE1DR1 1DWD 1EAP1EED1EPB 1ETA 1ETR 1FEN 1FKG1FKI1FRP1GHB1GLP1GLQ1HDC1HDY 1HEF 1HFC 1HRI1HSL 1HYT 1ICN 1IDA 1IGJ1IMB1IVE1LAH1LCP1LDM1LIC1LM0 1LNA1LPM 1LST 1MCR 1MDR 1MMQ 1MRG 1MRK1MUP1NC01NIS1PBD1PHA1PHD1PHG1P0C 1RDS 1RNE 1R0B1SLT 1SNC 1SRJ 1STP 1TDB1TKA1TMN1TNG1TNI1TNL1TPH1TPP 1TRK 1TYL 1UKZ1ULB 1WAP 1XID1XIE 2ADA2AK32CGR2CHT2CMD2CTC2DBL 2GBP 2LGS 2MCP 2MTH2PHH 2PK4 2PLV 2R07 2SIM2YHX3AAH3CLA3CPA3GCH3HVT3PTB 3TPI 4CTS 4DFR4EST 4FAB 4PHV 5P2P 6ABP6RNT6RSA7TIM8GCH
图17的两个圆是根据每个蛋白-配体复合物的特征对PDBID进行分类的圆,其表
示全部的PDBID。图中的右圆的集合可成为医药品开发的目标蛋白,结合的配体为医药品化 合物、肽、糖链等,富于多样性。另一方面,左圆的PDBID与右圆同样地选择成为医药品开发 的目标的蛋白,但其与右圆的PDBID不同,由医药品的配体构成。更详细地进行描述时,右 圆的集合为使用配体的分子结构、最终手动选定以是否满足杂原子的有无、氢供体、受体及 疏水基等的有无、里宾斯基五规则(Adv Drug Deliv Rev 46 (1-3), 3-26)这样的判定基准 判定为作为医药品的配体的物质的集合(J. Med. Chem. 50,726-741 (2007))。即,对于这些基准集的明细,85基准集为汇集有从自2000年8月11日后注册于 PDB的目标蛋白中选择成为制药的目标的目标蛋白、最终手动选定以要对接的配体是否也 具有杂原子、是否具有氢供体、受体及疏水基等、是否满足里宾斯基五规则这样的判定基准 判定为医药品的配体的物质的集合。另外,另一方面,理化研究基准参考文献0nOdera et al J. Chem. Inf. Model. 2007. 47. 1609-1618使用 GOLD参考文献:Gareth et al J. Mol. Biol. 1997 267,727-748的基准。如上所述,该基准使用在2000年8月以前注册于PDB的 目标蛋白。但是,在该基准中,除GOLD之外,将AutoDocKDOCK进行比较,因此,与该基准的 结果进行比较,认为,知道ChooseLD的对接软件中的位置安排是非常有用的。在上述的两 个基准中,PDB ID没有重复。因此,以85集进行ChooseLD的默认参数的确定,以理化研究 基准进行其参数中的ChooseLD的性能评价。其中,图18为横轴标绘有注册了在85集(左 圆)及133集(右圆)中提出的PDB ID的年、纵轴标绘有该年的合计注册数的图。对这些基准集的注册年如图18所示进行分布。对表示图18的2个基准集的 蛋白-配体复合物的集体的颜色的情况进行描述时,图的左侧的峰为目标蛋白为医药品 (druggable 是指可成为药剂开发的对象的目标蛋白),配体表示为各种低分子化合物时 的注册年的分布(Green plane 133 benchmark set Gold Benchmark (Jones et al. J. Mol. Biol.1997,267,727-748)(Onodera et al. J. Chem. Inf.Model. 2007. 47,1609-1618))。另 外,图的右侧的峰表示目标蛋白和配体同时为医药品(druggable)化合物时的注册年的分 布(Blue plane :85benchmark set (Hartshorn et al. J. Chem. 2007,50,726—741))。黑线表示各自的平均PDB数,对于平均值,绿色为9. 5、蓝色为14. 2 (Black line average of number of PDB of each (green, blue) plane. Average value are 9. 5 and 14. 2 for the green and blue plane, respectively.)。其中,图19为概括预测和实验结果间的rmsd的表(Table. Summary of r. m. s deviation between predictions and experimentalresults)。为了评价结合模式予页测结 构的精度,计算预测结构和实验结构的rmsd。rmsd大的情况,是指预测结构和实验结构相 差较大,即是指预测失败。因此,设定将预测结构视为正确的rmsd的上限值。图19的表表 示Jones等进行的结合模式预测结构和实验结构的rmsd和人的感觉、即良好(Good)、接近 (Close)、误差(Errors)、错误(Wrong)的关系。如果rmsd为2.0人以下,则预测结构与实验 结构相比为良好,即为Good。如果rmsd为2.5人以下,则含有接近于实验结构的预测结构、 且含有好的预测结构。即为Close。因此,将得到rmsd为2.0人以下的预测结构的情况定 义为预测成功。如果rmsd为2.0人以上2. 5以下,则为视觉上的评价G00d、Cl0Se、Err0rS、 Wrong (从 Jones et al. J. Mol. Biol. 1997 267,727-748 中选出)。即,如果 rmsd 为2.0人 以下,则以配体模型与正解相比,为良好。如果rmsd为2.5人以下,则包含以配体模型与正 解相比为接近(Close)和良好(Good)两者。结果和考察(1) :FPA函数中的kl最优化(Optimized kl inFPA Score function)]如上所述,FPAScore的kl值为调节注册于FP库的原子坐标和候选配体的原 子坐标的一致度的系数。kl值可根据目标而变更,对大量的目标蛋白进行虚拟筛选时 或考虑被其它研究者使用时,确定最佳的参数成为采用本方法的判断因素之一,因此,在 ChooseLD法的对接性能试验中,对于最佳值,使用85集参考文献Michael et al J. Med. Chem. 2007,50,726-741 确定 FPAScore 函数的 kl 的最佳值。85集汇集有许多类药的目标蛋白,进行GOLD参考文献Garethet al J. Mol. Biol. 1997 267,727-748的性能评价。这是因为,由于85集的PDBID不与133集重复, 即,在该最优化的过程中,85集不使用133集的信息。另外,85集仅实施GOLD的基准, 使Corina的结构与目标蛋白对接时,GOLD的成功率为75. 2 士0. 4 %,使用实验结构的配 体结构将结合位点定义为6人时,为80. 5士0. 5%,使用实验结构的配体结构将结合位点定 义为4人时,为86. 9士0. 3%,含有存在于X射线晶体结构中的结晶水时,为98. 6士0. 1 % (J. Med. Chem. 50,726-741 (2007))。S卩,仅进行GOLD的评价时,无法知道现有的对接软件中 的ChooseLD的位置安排,因此,85集用于kl值的最优化。其中,进行用FPA分值(Score) 描述的kl的最优化。对接的条件如下所述。由于与其它基准同样地具有缩小配体结合位点的搜索范 围等的优点,因此,定义配体结合位点。即,ChooseLD的对接性能试验的基准不是预测蛋白 的配体结合位点的氨基酸残基,而是考察配体结合位点中的候选配体的构象的正确性。结 合位点(binding site)的大小根据蛋白-配体复合物(Protein-Ligandcomplex)的正确
结构的配体的各原子设定为4人。另外,为了考察对与FP库中所含的配体的候选配体的相似 性带来的影响,计算与属于FP库的配体的Tc,限定FP库中所含的配体。使用类药FP (Drug LikeFingerprint)计算对接的配体和属于库配体(LIBRARAY LIGANDS)的配体的Tanimoto系数,fp带的Tc范围的最大值设定为0. 96,0. 76、及0. 56,将最小值设定为0. 08。初期构象使用使二面角随机地旋转、使从初期配体开始rmsd最大的结构充分远 离结合位点(binding site)的构象。使用该配体,对一个目标进行10次对接。在85集中, 可对接84集。其中,图20是表示85集中的预测成功率的一览(kl和Tc范围的关系)表。图20的表的kl为FPAScore中叙述的系数。其下的数值为进行计算的kl值。 Tc范围的最大值设定为0. 96,0. 76、及0. 56,将最小值设定为0. 08。柱中的数值为成功率
),平均(average)为上述范围的平均值。其结果,kl = 4. 0时的平均值最高,成功率最高为62. 1 %,接着,成绩的良好的排 序依次为6. 0,3. 0,5. 0,2. 0。kl值为1. 0时,在全部的Tc范围中,比其它的kl值的成功率 差。kl值为4. 0和6. 0时,为大致相等,以稍稍超过平均值的4. 0作为最佳值,133种参考 文献0nodera et al J. Chem. Inf. Model. 2007,47,1609-1618的基准使用该数值。其中,图21是表示可在rmsd2. 0以下预测至10位的比例的图表。图21的右图为 标绘有此时的成功率的图,其表明随着使采用的FPAScore的顺序增加,得到预测成功结 构的概率上升。即,不使用一个FPAScore上位的预测结构而使用多个时,得到接近于正确 的结构的概率会上升。即,认为,最好将FPAScore上位的预测结构多数用于利用分子动力 学计算或量子化学计算的复合物结构的最优化中的初期结构。将与视为成功的实验结构的 rmsd设定为2.01时,显示至10位成功预测率最大为82. 9%。另外,图22是表示可在rmsd2. 5(Close)以下预测至10位的比例的图表。如图 22所示,将与视为成功的实验结构的rmsd设定为2.5人时,显示至川位成功预测率最大为 87. 6%。另外,图23是表示在与视为成功的正确结构的rmsd在2.0人之外进行时的图表。 图23的右图为横轴标绘与视为成功的实验结构的rmsd、纵轴标绘有预测成功率的图。如上所述,为2.5人时,为约7成成功,但表明为了得到由作为85集基准中的 GOLD的预测成功率之一的Corina产生的配体、即与不使用实验结构的构象时的结合模式 预测的成功率 75. 2% (参考文献(Michael et al J. Med. Chem. 2007,50,726-741))相同的 成功率,Tc范围为0. 56 0. 08时需要使用3. 2 3. 3、为0. 76 0. 08时需要使用2. 8、 为0. 96 0. 08时需要使用2. 6 2. 7。需要说明的是,在将作为一般的共价键长的
定义为成功时,约4成的预测成功。在接近于范德华相互作用的临界值的3.5人以内,约8 成的预测成功。其中,图24是与ChooseLD相比、表示Dock、AutoDock及GOLD的基准的结 果的图表。图24是表示除去了以Onodera等人参考文献0nodera et al J. Chem. Inf. Model. 2007,47,1609-1618的基准在Corina的坐标上不产生的目标、在DOCK或GOLD中失 败的目标的116种PDBID的结果的图。图24的成功率(success rate)表示rmsd 2.0人或 比其好的结构的比例。其中,对接方法(Docking method)是指各对接软件(Docking soft)的名 称。ChooseLD 对 3 个 Tc 范围进行性能评价。GOLDGOLDScoreSTD,GOLDScoreLib、GOLD ChemScoreSTD、AutoDock、以及DOCK的值设定为Corina和MINI的平均值,在各对接软件的
成功率中用细棒表示标准偏差。
43
如图24的图所示,对于本实施例的ChooseLD的预测rmsd为2.0人或比其好的结 构的性能(成功率),Tc范围为0. 96 0. 08时,与GOLD大致相等。Tc范围为0. 76 0. 08 时,与GOLD大致相等或稍差。Tc范围为0. 56 0. 08时,不及GOLD、但比DOCK、AutoDock好。其中,图25是表示与85集中的FPAScore的预测结构和实验结构的rmsd为2.0人 以下的各个目标蛋白的冲突个数的分布的图。冲突0个的结构为75.0%,冲突1个的结构 为17. 3%,因此,合计为92. 3%,所以表明,FPAScore的冲突判定函数作为相当于经验性物 理函数的伦纳德_琼斯势型函数的冲突判定的函数起作用。图26及图27是记录各目标的总10次对接尝试中的成功个数的图,图26是表示 85集基准中的预测成功结构的个数分布的图。需要说明的是,图26的“* 1”表示预测成 功个数为5 10个的PDBID的个数占总体的比例。在全部的Tc范围内,10次成功和10次 失败的比例大。另外,10次中5次成功的目标为62.7 65.5%。另外,缩小Tc范围的上 限值时,显示10次都失败的个数增加的倾向。这被认为是由于,ChooseLD法依赖于作为FP 库已知的蛋白-配体复合物结构,所以,属于FP库的配体减少时,精度下降。结果和考察(2) (Result and Discussion (2)) :133种基准的结果根据Onodera 等人参考文献:0nodera et al J. Chem. Inf. Model. 2007,47, 1609-1618,在接近于提供各对接软件的状态下进行基准。由此,对于目标蛋白,用于GOLD参考文献Gareth et al J. Mol. Biol. 1997 267,727-748的基准的蛋白-配体复合物 (Protein-Ligandcomplex)使用除去了 133种中不能通过G0LD、D0CK进行对接的目标及不 能由Corina产生三维坐标的目标的合计116种。需要说明的是,被除去的PDBID为1TPH、 1TRK、1XID、4FAB、6RSA、1BBP、1CTR、1HYT、1PHG、1P0C、1SNC、1TMN、1CDG、1DR1、1LDM、4CTS、 4EST (Virtual Screening J. Chem. Inf. Model. 47,1609-1618(2007))。各个对接软件的参数使用由各个对接软件提供的参数,并未将参数最优化而用于 目标。认为如果进行参数的最优化,则显然成功率发生变化,这在ChooseLD中也相同,在 ChooseLD法中,也根据目标蛋白定义可变更参数kl、k2、k3值,所以,留有最优化的余地。因 此,ChooseLD的性能评价使用在方法项中叙述的值和在85集中进行了最优化的kl值、即 4. 0。其中,ChooseLD所使用的对接的条件在各目标中如下确定。1.结合位点(bindinR site)结合位点(binding site)设定为类似于现有的基准参考文献Anodera et al J Chem. Inf. Model. 2007,47,1609-1618并存在于距天然(Native)的蛋白-配体复合物 (Protein-Ligand complex)的配体(ligand)的各原子半径5.0人以内的距离的蛋白的原 子的球。2.配体的构象变化在133集的基准中准备3个对接的配体。即,为由Corina产生的配体、由Corina 产生的配体中的能量最小结构(以下称为MINI)的配体和注册于PDB的状态的结构这3 个,将它们分别相对116种目标蛋白进行1000个预测(Virtual Screening J. Chem. Inf. Model. 47,1609-1618 (2007))。在ChooseLD法的对接性能试验中,使用使构象随机地变化 而为从实验结构的蛋白_配体复合物的配体起rmsd最大的结构且充分远离上述定义的配
44体结合位点的状态的配体。即,不直接使用实验结构而对116种目标蛋白进行10次预测, 在与使用133集的基准大致相同的条件下进行。在这些过程中,除去在配体中存在有氢的 情况。3.与配体的Tanimoto系数的范围对于所使用的库配体(LIBRARY LIGAND),在候选配体(对接的配体)和Tc的范围 内,作为其最大值的0. 96,0. 76及0. 56分别相当于存在与对接配体非常相似的化合物的库 配体、存在相似的化合物的库配体、存在稍微相似的化合物的库配体。因此,使用在Tc的范 围内相当于0. 96 0. 08 (即不包含答复)、0. 76 0. 08及0. 56 0. 08的库配体。4. Onodera等人对一个配体进行1000次对接参考文献:0noderaet al J. Chem. Inf. Model. 2007,47,1609-1618。在这次的ChooseLD的性能评价中,对接10次候选配 体(对接的配体)。即,在各个Tc范围中进行1160次对接,进行合计3480次对接。如果 在一次对接尝试中预测的对接结构和天然的蛋白-配体复合物(NativeProtein-Ligand complex)的配体的rmsd为2.0A或比其好,则成功。图28及图29是表示133集的基准中的DOCK、AutoDock、GOLD预测结构的rmsd 分布的结果和ChooseLD法的结果的图。对接方法是指各对接软件的名称。ChooseLD 对3个Tc范围进行性能评价。GOLD是GOLDScoreSTD (用GOLDScore的“标准默认设 置”(‘Standard default Settings' with GOLDScore))、G0LDScoreLib (用 GOLDScore 的 “库筛选设置,,(‘Library Screening Settings'withGOLDScore)) .GOLD ChemScoreSTD(用 ChemScore 的“标准默认设置”(‘Standard Default Settings'with ChemScore))这 3 个 参数(Virtual Screening J. Chem. Inf. Model. 47,1609-1618 (2007) ),AutoDock 及 DOCK 的 值设定为Corina和MINI的平均值。对于由该图预测ChooseLD的rmsd为2.0人以下的结 构的性能,如果Tc范围为0. 96 0. 08,则与GOLD大致相同。如果Tc范围为0. 76 0. 08, 则与GOLD大致相同或稍差,如果Tc范围为0. 56 0. 08,则比DOCK、AutoDock好。图30及图31是表示各目标的总10次对接尝试中的成功个数的图。需要说明的 是,图30中的“ ★ 1”表示预测成功个数为5 10个的PDBID个数占总体的比例。与85集 同样,表明发生10次成功和10次失败的比例的两极化,但10次失败的数最多。另外,与 85集相比,10次成功率下降近20%。根据这些情况,认为,133集与85集相比,含有许多难 以对接的目标。这被认为是由于,85集的医药品化合物的分子量、可旋转的键数、氢供体、氢 受体的数受里宾斯基五规则等限定,所以,因其压缩的影响而含有许多容易对接的化合物。图32及图33是表示在Tc范围限定的FP库中、在依据FPAScore赋序的分布内得 到与实验结构的rmsd为2.0人以下的结构的概率的图。即,顺序为1的情况,与和上述的其 它对接软件的比较的成功率一致。该结果也与85集同样,整体的成功率下降。图34是表示预测成功结构的冲突个数的分布的图,表示与133集中的预测结构和 实验结构的rmsd为2.0人以下的结构中的各个目标蛋白的冲突个数的分布。冲突0个的结 构为56. 0%,冲突1个的结构为28. 7%,合计为84. 6%,表明FPAScore的冲突判定函数 作为相当于经验性物理函数的伦纳德_琼斯势型函数的冲突判定的函数起作用。从85集、 133集均显示同样的倾向考虑,认为冲突判定充分发挥作用。图35是表示进一步降低用于FP库的配体的Tc范围的上限值、在0. 16,0. 24、 0. 36使下限值为0. 08时的性能及上述Tc范围、即上限值为0. 56,0. 76,0. 96、下限值
45为0.08的预测成功率的图。表明降低Tc的上限值时,在0.24 0.08内为与133集 基准中的DOCK (21. )同程度的预测精度,在0.36 0.08内为与133集基准中的 AutoDock(26.6% )同程度的预测精度。(与GOLD的比较)下面表示2例根据理化研究基准GOLD失败、但通过本申请发明人的方法可进行对 接且rmsd为2.0以下的实例。其中,图36是表示对1DR1预测的蛋白-配体结构的图 (Predictedprotein-ligand complex structure for 1DR1)。图36中的条件或值等如下所述。PDBID :1DR1标题鸡肝二氢叶酸还原酶对接的配体NADPRMSD: 1.743FPA :Score 1295. 553青色(CYAN)(图中央的青色(浅蓝色))实验(X射线结晶分析)结构(Answer) (以下也相同。)绿色(GREEN)(图中央的深绿色)预测的配体结构(Predictedligand Structure)(以下也相同。)The other(其它)结合位点(the binding site)(以下也相同。)g卩,图36表示相对于PDBID :IDR1的本实施例的预测结构。其为GOLD预测失败的 目标蛋白、即从133集的基准排除在外的目标(Virtual Screening J. Chem. Inf. Model. 47, 1609-1618(2007))。本实施例的ChooseLD中,预测结构和实验结构的rmsd为1.74人,预测 成功。这认为是由于,在FP库中也含有许多存在于配体中的环结构。另外,图37是表示对4EST预测的蛋白-配体结构的图 (Predictedprotein-ligand complex structure for 4EST)。图37中的条件或值等如下所述。PDBID :4EST标题由肽基a,a - 二氟-酮基酰胺与猪胰弹性蛋白酶形成的共价复合物在 1.78人解析度下的晶体结构对接的配体抑制剂ACE- * ALA- * PRO- * VAL- * 二氟-* N- *苯乙烯乙酰胺RMSD: 1.729FPASC0RE 451. 291即,图37表示相对于PDBID :4EST的本实施例的预测结构,其为GOLD预测失败的 目标蛋白,即从133集的基准排除在外的目标(Virtual Screening J. Chem. Inf. Model. 47, 1609-1618(2007))。ChooseLD中,预测结构和实验结构的rmsd为1.73人,预测成功。这被 认为是由于,对接的配体有时为肽性配体,主要使用FP库中所含的肽性配体的主链的碳、
氮、氧。结果和考察(2)(Result and Discussion(2. 1))预测的结构结果(result of predicted structure)
表示4个现有的对接软件(GOLD,DOCK)失败的全部对接的实例。其中,图38 图41是表示GOLD失败但ChooseLD预测成功的目标的图。图38中的条件等如下所述。1CDG标题来自环状芽孢杆菌株251的环糊精葡萄糖基转移酶的核苷酸序列和取决于 麦芽糖的晶型的X-射线结构另外,图39中的条件等如下所述。1DR1与NADP+和生物蝶呤复合的鸡肝二氢叶酸还原酶的2.2人晶体结构另外,图40中的条件等如下所述。1LDM角鲨M4脱乳酸脱氢酶的细化的晶体结构另外,图41中的条件等如下所述。4EST标题由肽基a,a - 二氟-酮基酰胺与猪胰弹性蛋白酶形成的共价复合物在 1.78A解析度下的晶体结构(含有GLIDE的比较)Glide (J. Med. Chem. 47,(2004) 1739-1749)为柔性配体对接软件,在本实施例的方 法中进行与GOLD等的预测精度的比较。图42是表示133集中的90目标中的预测成功率的 图表。但是,上表的预测成功率的算法因各对接软件而不同。即,GOLD为对各目标进行20 次利用遗传算法进行的最优化时的结果(the best of GA 20 run) (http://www. ccdc. cam. ac.uk/products/life sciences/validate/gold validation/value, html),ChooseLD 对 各目标进行10次对接,选择2个FPAScore上位,选择最好的结构。在Glide的对接性能的 验证中没有记载,因此认为,以GOLD为标准。在133集的基准的结果中,GOLD的预测成功 率为45%左右,由此认为,根据对接条件及预测结构的选择法,预测成功大幅度地变动。(预测成功目标蛋白的分布)图43是用TcCTanimoto系数)计算对接软件间的预测成功的目标蛋白的PDBID 类似度的图表。其中,关于133集中的90集内的各个目标蛋白,两者的对接软件预测成功 时,加上Tc计算式的a,如果仅一个预测成功,则加上b或c。如图43 所示,Glide、GOLD、FlexXG.Mol. Biol. 261,470-489(1996)))间的 Tc 为 0. 61 0. 65,相对于此,在ChooseLD和其它对接软件间,为0. 47 0. 55左右。也认为预 测成功率在GOLD、Glide、ChooseLD间没有显著的差别时,ChooseLD与其它对接软件相比, 表明在预测成功的目标蛋白的分布上有独特性。另外,图44是相对于90目标中的一个目标蛋白的各对接软件的预测的成功与否 分布的图表。存在许多一个对接软件可预测的目标,但根据现状可说,没有成功预测全部 目标蛋白的对接软件。基于这样的背景,大多进行以下研究,即,不以使用多数对接软件为 前提,并根据对接软件的分值选择预测结构,而由预测的目标蛋白-配体复合物结构,使用 氢键等与蛋白的相互作用信息,选择更接近于实验结构的预测结构(European Journal of Medicinal Chemistry 42,966-976(2007)、J. Med. Chem. 47,337-344(2004))。
其中,图45 图47是表示DOCK失败但ChooseLD预测成功的目标的图。其中,图45中的条件等如下所述。1HYT苄基琥珀酸与嗜热菌蛋白酶的复合物及其相关与羧肽酶A的复合物的再测定和 再优化(RE-DETERMINATION AND REFINEMENTOF THE COMPLEX OF BENZYLSUCCINIC ACID WITHTHERMOLYSIN AND ITS RELATION TO THE COMPLEX ffITHCARBOXYPEPTIDASE A)另外,图46中的条件等如下所述。1PHG细胞色素P450-CAM的美替拉酮(和苯基咪唑)抑制的复合物的晶体结构 (CRYSTAL STRUCTURES OF METYRAPONE-ANDPHENYLIMIDAZOLE-INHIBITED COMPLEXES 0FCYT0CHR0ME P450-CAM)另外,图47中的条件等如下所述。1TMN通过X-射线晶体学测定的N-羧甲基二肽抑制剂与嗜热菌蛋白酶的结 合。新类型状态转换锌肽酶类似物(BINDING 0FN-CARB0XYMETHYL DIPEPETIDE INHIBITORS T0THERM0LYSIN DETERMINED BY X-RAYCRYSTALLOGRAPHY. A NOVEL CLASS 0FTRANSITI0N-STATE AN AL0GUES FOR ZINC PEPTIDASES)结果和考察(3)(Result and Discussion(3))接警的 rankrange 的结果 (result of accepted rankranRe)图48是表示不仅1位、而且至10位可采取rmsd2. 0的结构的比例的图。如图48 所示,采取至10位时,6成以上可在rmsd2.0以下对接。另外,图49是表示不仅1位、而且至10位可采取rmsd2. 5 (接近(Close))的结构 的比例的图。结果和者察(4)(Result and Discussion (4))视为成功的 rmsd 的结果(result rmsd regard as suceess)]使定义为成功的rmsd变化。在与理化研究基准比较时,将与定义为成功的预测结 构的正确结构的rmsd设定为2.0人,表示其它的数值(1. 5、2. 5,3. 0、以及3. 5)。这是因为, 只要为3.5人,就认为其预测配体结构大致存在于配体结合位点的附近,可将其结构用作 分子动力学、量子化学计算的初期结构。图50是表示使定义为成功的rmsd变化时的图表。如图50所示,在3.5人以内可预测的结构在Tc范围0. 56 0. 08 (即库中存在稍 微相似的配体的情况)中为68.9%。即是指,只要存在类似的化合物的实验结构,就可以该 精度在至少配体结合位点附近预测对接结构。另外表明,在Tc范围0.96 0.08 (即库中存在非常相似的配体的情况)中,7成 左右存在于配体结合位点。其中,作为对接的成功的定义的rmsd2.0这样的数值为各种基准参考文献: Gareth et al J Mol. Biol. 1997 267,727-748参考文献Michael et al J. Med. Chem. 2007,50,726-741参考文献0nodera et al J Chem. Inf. Model. 2007,47, 1609-1618等中的基本的评价基准。但是,实际上,即使在rmsd大于2. 0的情况下,如果进 行MD、QM的最优化,则也可精度良好地预测蛋白-配体复合物(Protein-Ligand Complex)的结构。即,表示这些定义为成功的rmsd在MD、QM研究者选择用于复合物结构的最优化的 初期结构时为有用的数据。S卩,认为,成为预计最优化所花费的时间(短时间lOOps,长时间 Ins等)或最优化的配体结合位点的范围(5人,10 A等)时的参考。结果和考察(5)(Result and Discussion(5))理想的方法(method ideal)]下面,再参照图8,主要对考察(Discussion)进行描述。S卩,在本实施例中,建立以作为配体的一部分的FP的构象相互作用的结构最稳定 的假定。所谓本实施例的FP的与目标蛋白的相互作用,将位于距蛋白较近的FP解释为疏 水性相互作用、氢键相互作用及范德华相互作用这样的焓相互作用,另外,将距蛋白较远的 FP解释为与溶剂的相互作用这样的焓相互作用。S卩,在本实施例中,最终使用FP的构象、采用化合物(ChemicalCompound)最稳定 的对接结构作为基础时,假定相当于在蛋白配体相互作用中采用最稳定的自由能的情况。S卩,从拟合好的来自类似蛋白的结合配体(ligand)群提取的FP配置含有与蛋白 的相互作用的自由能。其中,存在一个目标蛋白时,为了汇集许多配体,利用同源性或e-value低的类似 蛋白,但是显然认为,不被这些功能分类束缚的广义的家族蛋白的活性位点附近伴随稍微 的结构变化和氨基酸残基的变化,具有从家族蛋白提取的FP也不满足自由能稳定的假定 的可能性。因此,需要弥补该缺点,将从家族蛋白中提取的FP变更为在与目标蛋白的相互作 用中自由能更稳定的FP,设定为“经修饰的FP”,作为可靠性稍降低的FP采用。其中,经修 饰3D-1D法的程序进行对应。如果对目标蛋白进行该经修饰的FP的制作,则相当于考虑了 还未发现的新骨架的配体的情况,有可能发现活性比结合于目标蛋白的已知的配体高的化 合物。另一方面,认为,多种结合化合物的原子的相互作用的公共区域的FP重视与家族 蛋白相似的多种化合物结合的拟合,可得到利用生物化学信息或能量计算有可能存在原子 时赋予的与“创建性FP,,相比反映了实验信息的FP。其它方法(MD,QM)的蛋白_配体复合物的最优化(Protein-Li肪ndComplex Optimize for other method(MD,QM))相对利用现有的经典物理学能量预测的蛋白-配体复合物(Protein-Ligand Complex)的结构,使用已知的蛋白-配体复合物(Protein-Ligand Complex)的结构的 信息,进行由上述方法得到的对接结构的顺序添加、聚类参考文献Zhan et al J. Med. Chem. 2004,47,337-344。这些情况是指,利用现有的对接软件进行的输出而输出没有可靠 地反映实验信息的结构。另一方面,也进行了将预测的蛋白-配体复合物(Protein-LigandComplex) 的结构用使用了 AMBER、CHARMM的MD (参考文献分别为Case,A. D.,Cheatham HI, E. T. , Darden, T. , Gohlke, H. , Luo, R. , Merz Jr. , M. K. , Onufriev, A. , Simmerling, C. , Wang, B. & Woods, J. R. The Amber Biomolecular SimulationPrograms J Comput Chem 26 1668-1688(2005),Brooks, R. B, Bruccoleri, E.R.,Olafson, D.B.,States, J. D. , Swaminathan, S. & Karplus, M. CHARMM :A program for macromolecular energy, minimization, and dynamics calculations J. Comp. Chem. 4 187-217 (1983))或 QM (参考
49文献(Kamiya K, Sugawara Y,UmeyamaH. J. Comput. Chem. 2003,24,826-841)进行最优化的 尝试。在这些MD或QM等方法中,由于进行对接或虚拟筛选时计算量过大,因此,需要由天 然(为称为Native的意思)的蛋白-配体复合物(Protein-Ligand Complex)的结构在一 定程度的近的位点对接配体,将其做为初期结构。为了得到其初期结构而使用现有的对接软件,但是,由于以前面叙述的物理能量 为主体,因此,必需重复进行利用物理能量的最优化。另一方面,本实施例的方法主要使用已知的蛋白-配体复合物(Protein-Ligand Complex)的信息,可考虑生物信息学的观点和利用物理能量的观点,另外,本实施例中使用 的PDB的结构信息等生物信息学信息是每年积累的,因此认为,通过许多研究者对医学上 有兴趣的蛋白-配体复合物(Protein-Ligand Complex)的研究,对这些预测结构的最优化 也是有用的。结论(Conclusion)本方法的件能图51是表示利用本实施例进行的处理的结果的图表。如图51所示,如果使用本实 施例的方法,则将T85集相对医药品蛋白(Druggable-protein),对接类药配体(Drugglike ligand)时,Tc范围为0. 56 0. 08,0. 76 0. 08,0. 96 0. 08时,得到“良好”的结构的 概率分别为58. 9,62. 1、以及65. 2%,得到“接近”的结构的概率分别为68. 6,72. 1、以及 72. 4%。另外,对于相对医药品目标蛋白(Druggable-Target protein)对接各种各样的 配体(ligand)时的性能,Tc范围为0. 56 0. 08,0. 76 0. 08,0. 96 0. 08时,得到“良 好”的结构的概率分别为40. 1,44. 8、以及46. 4%,得到“接近”的结构的概率分别为53. 2、 57. 8、以及59. 3%。而且表明,这些性能为与现有的对接软件大致相同的性能。由目标蛋白和配体同时含有医药品(Druggable)化合物的训练计算的结果来看, 如果考察目标蛋白和任意配体的相互作用分值至第10的构象,则发现一个相对目标蛋白 总体的83% (图21的0. 96 0. 08、至10位的值)含有对正解赋予良好的模型的2.0人的 范围的答复的配体结构,因此,有目视搜索良好的结构的价值。另一方面,如果考察目标蛋白和任意配体的相互作用分值至第10的构象,则发现 一个相对目标蛋白总体的88% (图22的0. 96 0. 08、至10位的值)含有对正解赋予与 良好的模型相似的模型的2.5人的范围的答复的配体结构,因此,有目视搜索良好的结构或 相似的模型结构的价值。另外,目标蛋白为医药品(Druggable)蛋白,从配体含有各种低分子化合物的训 练计算的结果来看,如果考察目标蛋白和任意配体的相互作用分值至第10的构象,则发现 一个相对目标蛋白总体的65% (图48的0. 96 0. 08、至10位的值)含有对正解赋予良 好的模型的2.0人的范围的答复的配体结构,因此,有目视搜索良好的结构的价值。另一方面,如果考察目标蛋白和任意配体的相互作用分值至第10的构象,则发现 一个相对目标蛋白总体的76% (图49的0. 96 0. 08、至10位的值)含有对正解赋予与 良好的模型相似的模型的2.5人的范围的答复的配体结构,因此,有目视搜索良好的结构或 相似的模型结构的价值。目前,用物理学相互作用函数计算该目标蛋白和虚拟化合物库低分子化合物的 相互作用时,本实施例在使用生物信息学的信息半经验地进行计算方面与现有方法不同,进而,结构预测的成功率与世界公认的对接软件程序GOLD相比也具有优异的大的效果,另 外,每年增加的信息的积累将半经验性的生物信息学方法的该相互作用计算结果引导至良 好的方面,因此,有用性也大,发挥与现有方法不同的效果。另外,本实施例可将通过目标蛋白和各种低分子化合物的相互作用的分值化得到 的构象用作包含分子动力学计算式的对接程序的D0CK、AUtODOCk或GOLD、或作为分子动力 学计算程序的Amber或Charm等现有的对接软件的初期构象。其不仅可简便地得到本实施 例中得到的初期构象,而且重现实验的精度高,因此,通过与其它软件程序的组合,可得到 有用的结果。另外,本实施例可设定为以作为结合于类似于目标蛋白的立体结构的家族高分 子蛋白集上的各种低分子化合物数据库的CElib(FP (fingerprint) set extracted from collected ligands in the binding site)(从结合位点的配体集提取的化合物指纹集) 为基础,在使用任意的FP (指纹)的计算过程中不需要分析目标蛋白的立体结构并指定活 性位点的方法。在现有方法中,为了具有稳定构象高的分值,需要在使用D0CK、AUtODOCk或 GOLD等现有的对接软件的对接计算中预先分析目标蛋白的立体结构而指定活性位点,与其 相比,本实施例具有与现有方法不同的大的效果,不需要通过文献等的学习而指定活性位 点,是有用的。结论从生物信息学的观点来考虑,本实施例的方法在使用定义已知的蛋白_配体复合 物(Protein-Ligand Complex)的相互作用信息的分值并可靠地反映于对接模拟方面是成 功的。目前,也进行通过将已知现有的对接软件的输出的蛋白-配体复合物 (Protein-Ligand Complex)的信息加入到对接模拟来提高精度的尝试,这些方法依赖于研 究者的智慧和实践,没有普遍性。本实施例的方法自动进行同一性(Homology)检索及立体结构拟合,进而,通过使 用本方法提出的分值函数,可精度良好地得到对接结构。 由此,可不需要许多研究者的介入地广泛使用。另外,本方法提出的分值函数也可 与现有的对接软件组合。即,本实施例的方法在下述的三点中是非常有用的。从生物信息学的观点来考虑,本实施例的方法可将已知的蛋白-配体复合物 (Protein-Ligand Complex)的相互作用信息可靠地反映于对接模拟,这点与现有方法不 同。进而,本实施例的方法发挥考虑与受体的互补性及已知配体的构象及原子种类而可在 配体中自动地附加适当的物理量、距离限制等参数这样的大的效果,当然,由于新医学、生 物学上重要的目标蛋白和配体的相互作用的生物学信息学信息每年都在积累,因此,这些 情况对新骨架医药品或类似骨架的搜索是非常有用的。而且,随着定制(Tailor-made)医 疗时代的到来,需要实验信息丰富的目标蛋白的药物设计(Drug Design),因此,本实施例 的方法是非常有用的。实施例2作为实施例2,下面,对将EGFR(表皮生长因子受体,Epidermalgrowth factor receptor)用作目标蛋白时的k2和k3的最优化和虚拟筛选进行说明。其中,图52是表示来自EGFR的细胞内信号转导通路的图。在上述实施例1的ChooseLD法中定义的FPAScore分值的k2、k3值根据目 标蛋白以可最优化的系数定义。因此,对目标蛋白进行是否有效地起作用的验证。作 为表皮生长因子受体家族的EGFR在癌症治疗中为重要的抑制目标(J. Biol. Chem. 277 46265-46272(2002),Cell 125 1137-1149(2006))。因此,将 EGFR用作目标蛋白,进行虚拟 蹄选。(EGFR的立体结构构津)EGFR 的氨基酸序列使用 NCBI (Wheeler, D. L. et al.,NucleicAcids Res. (2007) Nov 27)ACCESSION ID P00533,将模型设定为PDBID 1M17的A链。比对使用图53所示的 比对。图53是表示EGFR的氨基酸序列的比对的图。同源性约为99%,与其以预测立体结构为目的,倒不如以弥补1M17的C末端的残 基缺损为目的。使用上述比对并使用同源模建软件FAMS Ligand & Complex (Proteins, Suppl 7 122-127(2005))构建模型。其中,图54是表示构建的EGFR模型的图。CIRCLE 分值(Terashi,G. et al. Proteins, (2007))为 71. 367。需要说明的是,模 型的1M17_A的分值为82. 110。CIRCLE分值为由属于由PDB等得到的实验结构坐标数据库 的蛋白的X射线结构获得的统计势,分值在正的方向越大,越满足已知的蛋白X射线结构的 环境,即,可说为接近于X射线结构的模型。(EGFR特异的FP库的构津)用作按照实施例2的ChooseLD法得到的FP库的配体的PDBID如下所述。1AD5,1AGW,1BYG,1E9H,1FGI,1FIN,1FPU,1FVV,1GAG,1H1P,1H1Q,1H24,1H25, 1H26,1H27,1144,1IEP,1IR3,1JPA,1JQH,1K3A,1KSW,1M17,1M52,1MP8,1MQB,10EC,10GU, 1019,10IU,10PJ,10PK,10PL,1PF8,1PKG,1QCF,1QMZ,1QPC,1QPD,1QPE,1QPJ,1R0P,1RQQ, 1SM2,1SNU,1T46,1U4D,1U54,1U59,1UWH,1UWJ,1VYW,1XBB,1XBC,1XKK,1Y57,1Y6A,1Y6B, 1YKR,1Y0L,1Y0M,1YVJ,1YWN,2B54,2B7A,2BDF,2BDJ,2BKZ,2BPM,2C0I,2C00,2C0T,2C4G, 2C5N,2C50,2C5P,2C5T,2C5V,2C5X,2DQ7,2E2B,2ETM,2EVA,2EXM,2F4J, 2FB8,2FGI,2F00, 2G1T, 2G2F,2G2H,2G2I,2G9X,2GNF,2GNG,2GNH,2GNI,2GQG,2GS6,2GS7,2H8H,2HCK,2HEN, 2HIW,2HK5,2HW0,2HWP,2HYY,2HZ0,2HZ4,2HZI,2HZN,2I0V,2I0Y,2I1M,2140,2ITN,2IT0, 2ITP,2ITQ,2ITT,2ITU,2ITV,2ITW,2ITX,2ITY,2ITZ,2IVS,2IVT,2IVU,2IVV,2IW6,2IW8, 2IW9,2J0J,2J0K,2J0L,2J0M,2J5F,2J6M,2NRU,2NRY,20F2,20F4,20FU,20FV,20G8,20IQ, 20J9,2008,20SC,20Z0,2P0C,2P2H,2P2I,2P4I,2SRC,2UUE(IC50已知化合物的获得)从BI0M0L (http //www, biomol. com/)的网站竞争性地抑制 EGFR,得到 11 个 IC50 值已知的化合物的平面结构。图55是表示得到的11个抑制剂的平面结构的图。在图55中, 对应附加于其化合物的平面结构,表示IC50值。这些化合物的三维坐标使用采用Chem3D 使立体结构产生后进行了 Chem3D附属的能量最小化计算的三维坐标。(将用于EGFR的虚拟筛选的k2、k3倌最优化)在 0. 5 5. 0 的范围内变更 FPAScore 的 k2 值,将 MDLComprehensive Medicinal Chemistry (MDL CMC)Library(SymyxTechnologies,Inc. Corporate Address 3100 Central Expressway, Santa Clara, CA 95051)假定为对EGFR没有活性的虚拟化合物,进行与这些
52化合物相比、已知的抑制剂按顺序排列于上位的实验。图56是表示将由FPAScore定义的k2值变更为0. 5 5. 0的范围时的收获率折线 图的图。此时,k3值设定为1.0。随机的直线为从母集体随机地选择化合物时得到已知抑 制剂的推定顺序的直线,如果在比该折线更靠下的位置描绘折线,则在依据FPAScore的排 列顺序中可在上位检测抑制剂的能力高,即是指虚拟筛选的性能好。k2值为0. 5,1. 0,5. 0 时,化合物的出现顺序从6开始折线开始上升。将k2值为2. 0,3. 0的折线进行比较时,在 9、10位,2. 0的线的收获率更好。因此,将k2值设定为2. 0。图57是表示将FPAScore中的k3值变更为0. 5 2. 0的范围时的收获率折线图 的图。此时,k2值设定为1.0。无论哪个k3值,均得到大概同样的直线,但k3值为0.5、2.0 时,在10、11位,折线上升,因此,将k3值1. 0设定为最佳值。(Tc的下限倌的最优化)设定FP库中所含的配体的Tc的下限值。通过限定Tc的下限值,可将不类似于对 接配体的化合物排除在外。确定收获率折线为最佳的Tc下限值。图58是表示将Tc上限值设定为1. 00、使Tc下限值的范围从0. 08至0. 32以0. 08 刻度变化时的各个Tc范围中的虚拟筛选的结果的图,活性已知化合物的出现个数为横轴, 依据FPAScore的顺序为纵轴。在Tc下限值为0. 24的情况下,出现个数为1 6个时,为 贴近x轴的良好的折线,因此,将该值设定为最佳的Tc下限值。需要说明的是,Tc下限值 为0. 32时的折线从出现个数2个附近急剧地上升。这被认为是由于,通过Tc下限值的压 缩,将应该用于FP库的配体排除在外,认为是指,在虚拟筛选中,即使设定为仅含有具有与 仅对接配体类似的FP的配体,也没有成功。图59是表示注册于PDB的蛋白-配体复合物结构已知的PDBID和其配体的排列 顺序的图。图60是对应附加图59的配体ID和化合物名的图。如图59所示,在进行赋序 的配体中也包含EGFR抑制剂。由于这些配体包含在FP库中,因此,来自它们的FP主要在 FP比对时使用,认为,FPAScore升高、排序在上位。在Tc下限值为0. 24的虚拟筛选中,与 0. 08的情况比较,这些配体出现顺序分散,但相对于蛋白-配体复合物结构不清楚的EGFR 的IC50已知的化合物在Tc下限值为0. 24时描绘良好的收获率曲线,因此认为,Tc下限值 0. 24为最佳。(虚拟筛选的结果)下面,表示k2 = 2.0、1^3值=1.0、1\3下限值=0. 24时的EGFR虚拟筛选的结果。 在上位100个结构中,97结构为含有磷酸原子的ATP衍生物。因此,进行下述压缩。(1)将分子量350以上800以下的分子、含有磷的分子排除在外(2)将不进行重要的氢键合的分子排除在外(MET的主链的氮)(3)将存在蛋白原子和配体原子的冲突2.0人以下的对接配体分子排除在外图61及图62是表示利用激酶的虚拟筛选的压缩的结果的上位10位的蛋白-配 体复合物的图。需要说明的是,图62是从其它角度观察图61的图。满足激酶(Kinase)区 域的空间内的立体结构的互补性、且满足相互作用重要的氢键的结构存在于依据FPAScore 的排序中,表明,本实施例的ChooseLD法对利用虚拟筛选的抑制剂搜索也是有用的。需要 说明的是,这些试剂可购入,可测定活性值。但是,依据FPAScore的排列顺序不是直接表示 目标蛋白的活性抑制的强度的分值,因此认为,不是依赖于FP构建法统一给予赋予FP的分
53值,也可对也能够反映结合常数的大小的分值进行改良。应用例下面,表示对各种目标蛋白应用上述实施例1、2所述的ChooseLD法的结果。这些 结果需要利用实验来证明。第一例是关于EGFR的二聚物形成抑制剂搜索的例子。第二例 关于对VEGF2的KRN633、KRN951的复合物结构的预测,蛋白-配体复合物结构的预测需要 利用X射线结构分析来证明。第三例关于对疟疾的虚拟筛选,这也需要利用结合实验来证 明。(EGFR的TGF_ a结合域抑制剂的虚拟筛诜)如图52所示,已知EGFR通过形成二聚物来传递信号(Nat. Rev. Cancer. 4, 361-370(2004))。作为配体结合于EGFR的转化生长因子a (TGF- a )是EGFR形成复合物所 需要的肽。即,EGFR的TGF-a结合域的抑制剂开发为制药的目标。因此,使用ChooseLD法 进行对EGFR的TGF- a结合域的虚拟筛选。EGFR的立体结构使用PDBID :1M0X。在TGF- a 结合域附近将 TGF 类似物的肽使用 FAMS Ligand& Complex (Proteins 61,122-127 (2005)) 进行建模,截取其侧链。图63是表示TGF-a结合域附近的图,黄色为从TGF a类似物的肽仅截取侧链的 图,将其用作ChooseLD法的FP库。其是以防止肽性的抑制剂在FPAScore上位出现的目的 而进行的。
64^^^^jiffiMDL Comprehensive Medicinal Chemistry(MDL CMC)Library 的EGFR的TGF- a结合域的虚拟筛选的结果的图,图65是表示使用有MDL A⑶Library的 同一虚拟筛选的结果的图。由此表明,利用实施例,可进行使用蛋白_蛋白相互作用的信息 的对接。对(VEGFR2(血管内皮生长因子受体-2))的KRN633、KRN951的复合物结构的预测VEGFR2是与血管新生有关的激酶(Kinase),是在肺癌等癌发病时异常表达的蛋 白之一,特异性地抑制该蛋白的化合物为癌的治疗药。作为抑制剂,已知有KRN633(Mol. Cancer. Ther. 3,1639-1649 (2004))、KRN951 (Cancer Res. 66,9134-9142 (2006))。但是,这 些复合物结构在2007年12月时没有进行X射线晶体结构分析。因此,预测VEGFR2和KRN633 的复合物及VEGFR2和KRN951的复合物结构。其中,图66是表示KRN633 (IC50 = 1. 16nm/ L)的平面结构的图,图67是表示KRN951 (IC50 = 0. 16nm/L)的平面结构的图。VEGFR2的立体结构使用PDBID 2P2H的A链。记载关于KRN633、KRN951的对接的 条件时,用于FP库的配体通过利用PSI-Blast的同源性检索得到,用于对接的FP库的上位 10 个在KRN633 中为 PDBID :2HZN_A、1YWN_A、2J5F_A、2IVU_A、2H8H_A、20H4_A、1GAG_A、1FPU_ A、2C0I_A、2P4I_A,在 KRN951 中为 2I0V_A、2HZN_A、20H4_A、1FGI_A、1YWN_A、1FPU_A、20FU_ A、2C0I_A、2H8H_A、2FGI_A。图68 图71是表示VEGFR2的活性附近的立体结构的图。蛋白侧的红色的带是 指a-螺旋,青色的带是指0折叠。图68表示在用于对KRN633的VEGFR2活性位点附近 的对接的属于FP库的配体中用于对接的配体的上位10个的集合,图70同样地表示在用 于KRN951的FP库的属于FP库的配体中用于对VEGFR2活性位点附近的对接的配体的上位 10个的集合。图69与VEGFR2的活性位点附近的立体结构同时表示对KRN633实施10次 ChooseLD法并预测的结构10个。在FP库的配体中与KRN633的类似度使用Tc时,最高值为0. 45。在10次尝试中,可得到大致同样的结构。图71同样地与VEGFR2的活性位点附 近的立体结构同时表示对KRN951实施10次ChooseLD法并预测的结构10个。预测结构的 10个中8个为大致相同的结构。在FP库的配体中与KRN951的类似度使用Tc时,最高值为 0. 29。(VEGFR-2的对接预测成功率的计算)为了评价KRN633、KRN951的预测复合物结构的可靠性,使用FP库中所含的对接配 体的Tc最大值,计算由133集计算的统计成功率。图72是对将由使用133集的ChooseLD 法的对接性能试验的结果得到的Tc下限值固定在0. 08、使Tc上限值变化时的预测成功率, 将横轴设定为Tc上限值、纵轴设定为成功率的图的图。S卩,通过在图中嵌入Tc上限值,可统计计算应用ChooseLD法时的预测成功精度。 但是,该统计的预测成功率不考虑目标蛋白的立体结构、氨基酸序列。在KRN633的对接中 使用的FP库中所含的配体中,Tc为最大的配体为0. 45,因此,使用0. 36和0. 56时的预测 成功率嵌入预测成功率时,为34. 7%。KRN951也同样地根据0. 24和0. 36时的预测成功率, 推定预测成功率为24.3%。在133集中的预测成功率中预测成功率最高的GOLD Score STD 为 46. 0%,D0CK 为 21. 1%, AutoDock 为 26. 6%,KRN633 比 AutoDock 好,可以不及 GOLD 的 精度预测,关于KRN951,认为可以与AutoDock同程度的精度预测。(相对于恶件疟原虫(Plasmodiumfalciparum)烯酰基载体蛋白还原酶的低分子 (NAD)插入的状杰下的对接)恶性疟原虫的烯酰基载体蛋白是疟疾的病原蛋白之一,是与脂质合成有关的 蛋白,该脂质合成通路不存在于人体内,因此认为,抑制该蛋白的功能与疟疾治疗有关 (J. Biol. Chem. 277,13106—13114 (2002))。图73是表示烯酰基载体蛋白的立体结构的图。另外,如图73所示,作为抑制该蛋 白的化合物,存在三氯生等,进行与多数抑制剂的X射线晶体结构分析(J. Biol. Chem. 277, 13106-13114(2002))。这些抑制剂经由NAD结合。通过将它们用作FP库,实施用于新抑制 剂的先导化合物搜索的虚拟筛选。
74 ^^^jiffi MDL Comprehensive Medicinal Chemistry (MDL CMC) Library 进行烯酰基载体蛋白的虚拟筛选的结果的FPAScore的上位10个结构的图。被上侧的圆包 围的部分为利用虚拟筛选的结果,进行考虑用下侧的圆表示的NAD所占的空间的对接。需 要说明的是,对MDL Available Chemicals Directory (MDL ACD) Library 也实施虚拟筛选, 可表明,根据本实施例的ChooseLD法,可进行考虑了存在于NAD或H20等目标蛋白的活性 位点附近的低分子的对接。(结论)在本实施例中,开发了使用用模拟退火将新定义的FPAScore进行最优化的方法 的基于生物信息学的配体对接和虚拟筛选法、ChooseLD法。另外,通过进行85集中的kl值 的最优化,将假定用于高通量筛选等的最佳值确定为4. 0。在使用该kl值的情况下,在133 集中,将rmsd为2.0人以下且可预测实验结构的比例设定为指标时,本实施例的ChooseLD 法的对接性能为与使用现有的经典物理函数进行对接的GOLD同程度,Tc上限值低时,与 DOCK、AutoDock为同程度。该情况表明,利用由来自家族蛋白的配体构建的FP库中所含的 配体通过FP构建法得到的FP为自由能变低的坐标的假定正确。
但是,由于目前现有的对接软件不一定能够搜索自由能最小的结构,因此,也表明 现有方法还有改良的余地。另外,在133集中,从预测成功的PDBID的分布的观点考虑,将 ChooseLD法和Glide、GOLD、FlexX进行比较,利用Tc计算PDBID的分布的类似度,结果表 明,预测成功的目标具有独特性,通过本实施例的ChooseLD法和现有法的并用,虚拟筛选 的精度可能上升。进而,如上所述,在本实施例2中,将EGFR的激酶区域用作目标蛋白,表 示FPAScore的k2值、k3值根据目标蛋白可最优化的变量。根据这些结果认为,本实施例 2的ChooseLD法中的FPAScore的kl、k2、k3值根据目标蛋白进行最优化,对更多的抑制剂 及先导化合物进行虚拟筛选。实施例3下面,对实施例3进行说明。在实施例3中,以开发AMPKhomoGAMMAl酶的抑制剂 (拮抗剂)以及激动剂(激动剂)的目的进行虚拟筛选。首先,将AMPKhomoGAMMAl酶作为目标蛋白,进行其氨基酸序列的同一性检索,将 具有99. 7%的同源性的2V9J_E(2V9J的E链)作为模型含有以下的配体,使用FAMS Ligand 建模AMPKhomoGAMMAl。其中,图75是表示AMPKhomoGAMMAl和2V9J_E的氨基酸序列的比 对的图。其结果,结合配体为2V8Q_E的3个配体AMP_E_1327、AMP_E_1328、AMP_E_1329、 2V92_E 的 3 个配体 ATP_E_1327、ATP_E_1328、AMP_E_1329、2V9J_E 的 3 个配体和 2 个镁 ATP_ E_1327、ATP_E_1328、AMP_E_1329、MG_E_1330、MG_E_1331、2QRE_E 的 1 个配体 AMZ_E_1002。接着,2V9J_E以外的配体以利用CE的拟合(不在意原子的种类的蛋白之间的结构 拟合)与2V9J_E的坐标系拟合。从2V9J_E模型的3处ATP(AMP)结合位点中缩小至不依 赖于MG离子的AMP_E_1329位点,实施抑制剂及激动剂的筛选。在实施本实施例的ChooseLD时,从AMP_E_1329的结合位点截取18人以内的氨
基酸残基,做成2V9J_E的受体模型。另外,在ChooseLD筛选时,受体结合位点以外的配体 和MG离子作为辅助因子(Cofactor)包含在受体中。另外,在本实施例的ChooseLD的FP 中,使用从受体结合位点的配体分子除去了磷酸基(P03)的3个腺苷和1-(5_氨基-4-羧 酰胺-1H-咪唑-基)-核糖,磷酸基部分不朝向候选化合物的官能团。因此,不是直接使磷 酸为FP,而是计算与磷酸基的氧原子进行氢键合的Hisl51和His298 (在模型蛋白的2V9J_ E中为Hisl50和His297)对的相对距离,用⑶T_TS( 0.5A、l.OA, 1.5人、2.0入)计算 结构的偏差,为70%以上(可变更)OTT_TS的残基对,从残基对将存在于3.0人以内(可 变更)的配体从95%NR_PDB以HETATM提取。需要说明的是,此时,也可不是2个氨基酸残 基而指定3个氨基酸残基。OTT_TS表示相对天然结构在X人以下拟合的残基的比例。其结果,可提取1061个 配体。通过对这些配体确认与2V9J_E受体的冲突,将18个配体或配体的一部分追加于FP, 利用合计 22 个FP进行 CMC (Comprehensive Medicinal Chemistry, 2006. l,Elseviwr MDL) 数据库的筛选。进行以下设定受体侧和配体的原子冲突(2.0A1原子以下、2.2 A3原子以下、 2.4人5原子以下)、配体分子量200 500、配体LogP-l 5、配体的环的数、氢供给原子、 氢接收原子分别为0 5等。其中,图76是表示配体结合于整个受体的CMC医药品的结果 列表的图。
其中,图77是集合地表示对其中的1位 10位的2V9J_E受体的结合状态的图。 绿色的球棒模型表示2个HIS残基,黄色的棒状模型表示3个腺苷和1- (5-氨基-4-羧酰 胺-1H-咪唑-基)-核糖。在其间对接10个医药品。进而,也可在3个腺苷和1-(5_氨 基-4-羧酰胺-1H-咪唑-基)_核糖的基础上,将用CMC筛选得到的医药品化合物27个 作为指纹,使用合计 31 个 FP 进行 ACD (Available ChemicalsDirectory, 2008. l,Elseviwr MDL)的筛选,得到AMPKhomoGAMMAl酶的抑制剂(拮抗剂)以及激动剂(激动剂)的候选化 合物。其他实施方式至此对本发明的实施方式进行了说明,但本发明除上述的实施方式之外,还可在 上述权利要求的范围及本申请发明的概要记载的技术思想的范围内以各种不同的实施方 式实施。例如,将虚拟筛选装置100以独立的方式进行处理的情况作为一例进行了说明, 但虚拟筛选装置100可以根据来自由其它框体构成的客户终端的要求进行处理并将其处 理结果返回到该客户终端的方式构成。另外,在实施方式中说明的各处理中,也可手动地进行作为自动地进行的处理说 明的处理的全部或一部分,或者也可用公知的方法自动地进行作为手动地进行的处理说明 的处理的全部或一部分。此外,对含有上述文献中或附图中所示的处理步骤、控制步骤、具体名称、各处理 的注册数据或检索条件等参数的信息、画面例、数据库构成,除特别记载的情况之外,可任 意地进行变更。另外,关于虚拟筛选装置100,图示的各构成要素为功能概念的构成要素,不一定 需要如物理图示那样构成。例如,对虚拟筛选装置100的各装置具备的处理功能、特别是由控制部102进行的 各处理功能,可用CPU (中央处理单元,CentralProcessing Unit)及通过该CPU解释执行 的程序实现其全部或任意的一部分,或者也可作为利用接线逻辑的硬件实现。另外,外部系 统200可作为TOB服务器或ASP服务器等构成,其硬件构成可由一般市售的工作站、个人电 脑等信息处理装置及其附属装置构成。另外,外部系统200的各功能利用外部系统200的 硬件构成中的CPU、盘装置、存储装置、输入装置、输出装置、通信控制装置等及控制它们的 程序等实现。另外,程序记录于后述的记录介质,根据需要在虚拟筛选装置100中机械地读取。 即,ROM或HD等存储部106等作为0S (操作系统)协动,对CPU下命令,记录用于进行各种 处理的计算机程序。该计算机程序通过载入RAM而执行,与CPU协动而构成控制部。另外, 该计算机程序可存储于相对虚拟筛选装置100经由任意的网络300连接的外部系统200等 应用程序服务器,也可根据需要下载其全部或一部分。另外,也可将本发明所述的程序保存于计算机可读取的记录介质。其中,所谓该 “记录介质”,为如经由软盘、光磁盘、1 0113 1 0113£ 1 011、0)-1 01^0、0乂0等任意的“可移动 物理介质”或LAN、WAN、因特网所代表的网络发送程序时的通信线路或载波那样,含有短期 保持程序的“通信介质”的记录介质。另外,所谓“程序”,为用任意的言语或描述方法描述的数据处理方法,与源代码或二进制码等形式无关。需要说明的是,“程序”不一定限于单一构成的程序,也包含以多个 模块或库分散构成的程序或与OS (操作系统)所代表的另外的程序协动而实现其功能的程 序。需要说明的是,对在实施方式所示的各装置中用于读取记录介质的具体的构成、读取步 骤或读取后的安装步骤等,可使用众所周知的构成或步骤。保存于存储部106的各种数据库等是RAM、ROM等存储装置、硬盘等硬盘装置、软 盘、光盘等存储装置,其保存用于各种处理或网站提供的各种程序、表、数据库或网页用文 件等。另外,虚拟筛选装置100可通过连接已知的个人电脑、工作站等信息处理装置,在 该信息处理装置中安装实现本发明的方法的软件(包含程序、数据等)来实现。进而,装置的分散、组合的具体方式不限于图示的方式,其可将其全部或一部分以 对应各种负荷等的任意的单元功能性或物理性地分散、组合而构成。工业实用件哪种该化合物与目标高分子蛋白有效地相互作用并对接的信息为新医药品开发 的关键,另外,定制医疗至少对应于一个氨基酸残基的取代而进行目前所不知的医药品的 开发,因此,结合于目标高分子蛋白的化合物的信息在实验确定完的化合物数中其数量丰 富,可使新药开发加速,因此,本申请发明中叙述的虚拟筛选装置及虚拟筛选方法的工业上 的可利用性非常大。
权利要求
筛选结合于目标蛋白的候选化合物的虚拟筛选装置,其至少具备存储部和控制部,其特征在于,●所述存储部具备化合物数据库,■所述化合物数据库通过提取每个所述候选化合物的包含原子类型和原子间结合规则的化学描述符而制成,■所述化学描述符作为联系化合物中多个原子的化合物指纹而被提取;●所述控制部具备■化合物指纹制作装置,其将结合化合物的三维坐标与所述化合物指纹一同提取而制作结合化合物指纹集,◆所述结合化合物已知结合于立体结构与所述目标蛋白相同或类似的家族蛋白,◆所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标,和■最优化装置,其计算使所述候选化合物与所述目标蛋白的相互作用分值最优化的所述候选化合物的立体结构,◆所述候选化合物储存于所述化合物数据库中,◆所述候选化合物与所述目标蛋白的相互作用分值以所述化合物指纹单元的均方偏差为基础,◆所述化合物指纹单元的均方偏差以所述结合化合物指纹集的所述三维坐标为基础计算。
2.权利要求1的虚拟筛选装置,其特征在于, 所述虚拟筛选装置与蛋白数据库装置连接,所述蛋白数据库装置存储结合于化合物 的蛋白的立体结构及氨基酸序列; 所述控制部还具备同一性检索装置,所述同一性检索装置基于所述目标蛋白与所述 氨基酸序列的同一性,从所述蛋白数据库装置检索所述家族蛋白及所述结合化合物; 所述化合物指纹制作装置将所述结合化合物的三维坐标与所述化合物指纹一同提 取而制作所述结合化合物指纹集,■所述结合化合物结合于利用所述同一性检索装置检索得到的所述家族蛋白, ■所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标。
3.权利要求1的虚拟筛选装置,其特征在于,所述化合物指纹制作装置眷通过所述家族蛋白和所述目标蛋白的结构拟合,将结合于该家族蛋白的所述结合化 合物的所述三维坐标转换到所述目标蛋白的坐标系,并 将经转换的所述三维坐标与所述化合物指纹一同提取而制作所述结合化合物指纹集。
4.权利要求1的虚拟筛选装置,其特征在于,所述化合物指纹制作装置还具备新化合 物指纹追加装置,所述新化合物指纹追加装置眷参照与所述结合化合物不同的其它所述化合物进行结构拟合,并 眷提取跨越该结合化合物原子间和该其它所述化合物原子间的所述化合物指纹而追 加到所述结合化合物指纹集。
5.权利要求1的虚拟筛选装置,其特征在于,所述化合物指纹制作装置还具备新化合 物指纹追加装置,所述新化合物指纹追加装置 对基于Tanimoto系数与所述结合化合物类似的所述化合物,替换该结合化合物原 子间和该化合物原子间的原子种类,眷计算与所述目标蛋白的相互作用能量,并眷制作与该结合化合物的所述化合物指纹相比,局部能量更稳定的所述化合物指纹而 追加到所述结合化合物指纹集。
6.权利要求1的虚拟筛选装置,其特征在于,所述结合化合物为利用公知的对接算法 预测为对所述目标蛋白具有稳定构象的化合物。
7.权利要求1的虚拟筛选装置,其特征在于,所述最优化装置还具备相互作用分值计 算装置,所述相互作用分值计算装置基于考虑以下因素的函数计算所述相互作用分值 所述化合物指纹单元中以所述均方偏差为基础的所述候选化合物与所述目标蛋白 的冲突程度、 所述候选化合物在所述目标蛋白的相互作用区域中的存在比例、及 所述候选化合物与所述目标蛋白的直接相互作用比例。
8.权利要求1的虚拟筛选装置,其特征在于,所述最优化装置通过下法使所述相互作 用分值最优化 基于Metropolis法判定所述相互作用分值, 根据判定结果变更、增加或减少成为所述候选化合物的基础的所述化合物指纹。
9.权利要求1的虚拟筛选装置,其特征在于, 所述最优化装置还具备结构变换装置,所述结构变换装置■在所述相互作用分值的最优化过程中,反复改变所述候选化合物的构象,■基于模拟退火法,按照该候选化合物的各所述构象将该候选化合物作为刚体反复并 行或旋转; 所述最优化装置计算经所述结构变换装置并行或旋转的各所述构象的所述候选化 合物的所述相互作用分值。
10.权利要求1的虚拟筛选装置,其特征在于,所述最优化装置基于以下的数学式(1) 计算所述相互作用分值数1FPAScore = F(aligned—fp,fp—rmsd,molecule) =BaseScore (aligned_fp, fp—rmsd) X fp—volume (molecule) Xfp_contact_surface(molecule) (1)其中, 所述FPAScore表示所述相互作用分值, 所述F(aligned_fp,fp_rmsd, molecule)为将以下因素作为变量的函数■所述结合化合物和所述候选化合物间的所述化合物指纹单元的比对度、及所述均方 偏差、以及■所述候选化合物对所述目标蛋白的所述立体结构; 所述BaseScore (aligned_fp,fp_rmsd)为表示所述化合物指纹单元的一致度及密 集度的指标; 所述fp_volume (molecule)为表示以下因素的指标■所述候选化合物占由所述结合化合物指纹集的所述三维坐标构成的空间的比例、及■所述候选化合物与所述目标蛋白的冲突程度; 所述fp_contact_surface (molecule)为表示以下因素的指标■所述候选化合物与所述目标蛋白的接触度、及■所述候选化合物对所述结合化合物指纹集的所述三维坐标的归属度。
11.权利要求10的虚拟筛选装置,其特征在于,所述数学式(1)中,基于以下的数学式(2)计算,数2
其中,■所述RawScoreblignecLfp)为基于在所述结合化合物和所述候选化合物间比对的 所述化合物指纹中的原子数的指标, ■所述fp_rmsd为所述均方偏差, 所述fp_volume (molecule)基于以下的数学式(6)计算,数3fip _ volume{molecule) = In !力 + m^ 其中,■所述nafp为所述候选化合物的所述三维坐标所占的固有网格点区域的网格点数, 所述固有网格点区域基于所述结合化合物指纹集的所述三维坐标,■所述nap为所述候选化合物的所述三维坐标所属的所述目标蛋白的所述立体结构 中原子的固有网格点区域的网格点数,所述k2及k3为任意常数; 所述fp_contact_Surface (molecule)基于以下的数学式(7)计算,数4
Z density of—atom{atom{i))fp _ contact _ surface{molecule)=———---一一total_density_of _atom(molecule) (γ)其中,■所述η为所述候选化合物的原子数,■所述atom(i)为所述候选化合物的第i个原子的所述三维坐标, ■所述density_0f_at0m(at0m(i))为当该原子的所述三维坐标属于所述结合化合物 指纹集的所述化合物指纹时,返回以下数之和的函数 以所定距离与该化合物指纹的所述原子接触的所述目标蛋白的原子数、和 属于该化合物指纹的同一网格点的所述结合化合物的原子数, ■所述 total_density_of_atom(molecule)为将按降序重排的所述 density_of_atom 分布依次累加所述候选化合物的原子数项的数。
12.虚拟筛选方法,其在至少具备存储部和控制部的虚拟筛选装置中实施,所述方法筛 选结合于目标蛋白的候选化合物,其特征在于, 所述存储部具备化合物数据库,■所述化合物数据库由提取每个上述候选化合物的包含原子类型和原子间结合规则 的化学描述符而制成,■所述化学描述符作为联系化合物中多个原子的化合物指纹而被提取; 所述方法包括在所述控制部中实施的以下步骤■化合物指纹制作步骤,将结合化合物的三维坐标与所述化合物指纹一同提取而制作 结合化合物指纹集, 所述结合化合物已知结合于立体结构与所述目标蛋白相同或类似的家族蛋白, 所述结合化合物的三维坐标是已转换到所述目标蛋白的坐标系的三维坐标; ■最优化步骤,计算使所述候选化合物与所述目标蛋白的相互作用分值最优化的所述 候选化合物的立体结构, 所述候选化合物存储于所述化合物数据库中, 所述候选化合物与所述目标蛋白的相互作用分值以所述化合物指纹单元的均方偏 差为基石出, 所述化合物指纹单元的均方偏差以所述结合化合物指纹集的所述三维坐标为基础。
全文摘要
本发明提供虚拟筛选装置,其特征在于,具备对每个候选化合物提取化合物中的多个原子的化合物指纹而制成的化合物的数据库,对已知结合于立体结构和目标蛋白相同或类似的家族蛋白的结合化合物,与转换到目标蛋白的坐标系的三维坐标一同,提取化合物指纹,制作结合化合物指纹集,对存储于化合物数据库的候选化合物,运算该候选化合物的相对于目标蛋白的所述立体结构,使以将结合化合物指纹集的三维坐标作为基础计算的化合物指纹单元的均方偏差为基础的相互作用分值最优化。
文档编号G06F19/00GK101855392SQ20088011549
公开日2010年10月6日 申请日期2008年11月12日 优先权日2007年11月12日
发明者加纳和彦, 寺师玄记, 小松克一郎, 志鹰真由子, 梅山秀明, 高谷大辅 申请人:电子虚拟生物科技株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1