进行离散子结构分析的计算机系统的操作方法

文档序号：6475853阅读：286来源：国知局

专利名称：进行离散子结构分析的计算机系统的操作方法
技术领域：
本发明涉及一种能够进行离散子结构分析(discrete substructureal analysis)的计算机系统及其操作方法。这种分析可以用计算机进行识别具有某些性质如生物和/或化学活性的分子。由计算机控制的离散子结构分析可用于药物发现或其他需要识别生物、药理、毒理、杀虫、除草、催化等活性化合物的领域。
背景技术：
在诸如医药化学领域上的发展取决于生物活性分子的识别。在许多时候，研究项目针对有机小分子的合成，这些有机小分子与已知的酶或目标受体相互作用，从而产生所希望的药理效应。这些化合物至少部分可模拟或抑制已知天然存在的物质的活性，但它们是用来提供一种较有效和/或更多选择的作用。由这类研究产生的化合物可能包含有关的天然存在的物质的某些结构特征。
由于筛选的资源存在于自然界，例如土壤样本或植物提取物，故研究项目也可基于已发现的天然存在的物质。以这一方式发现的活性化合物可以用作合成化学项目的先导物(leads)。
最近几年，有用的新型生物活性分子的识别变得越来越迫切，因而人们业已研制出一些先导化合物的制备方法。在这一方面，有两个研制特别重要，即组合化学和高通量筛选(HTS)。
组合化学采用机器人或手动技术进行多次小型化学反应，每次反应“同时”或“平行”使用不同的试剂组合，从而产生大量供筛选用的各种化学物质。通过这种方法产生的化合物集称为“库”。产生新化学先导物的库通常要尽可能多样化。然而，在某些情况下，通过选择要将特有结构特征引入到最终化合物中的试剂而使库可以偏离或针对一个特定药理目标，或集中在一个特定化学领域。
高通量筛选涉及用生物化学试验快速测试大量化合物在体外对一个或多个生物目标所具有的活性。这种方法适宜于筛选由组合化学产生的大化合物库。
尽管组合化学和高通量筛选在产生新先导物结构上具有无容置疑的优点，但这些方法仍然存在一些缺点。在无偏组合库中，大部分化合物没有有用的活性。所以有用先导物的发现取决于偶然性和/或所测试化合物的数目。目标库内活性化合物可能会较多，但要视选择的标准而定，它甚至可能无法提供最佳化合物。另外，两种技术均需要相当多的资源以及进行大量的实验。
在给定化合物集内发现活性分子的可能性或概率可以随着测试化合物的总数(即集合的大小)增多或随着活性化合物在同一集合中的比例增大而提高。可以看出，增大化合物集内活性化合物的比例对提高发现活性分子的概率较之只增加测试化合物的总数更有效。前一种方法减少需要制备和测试的化合物的数目，所以有利节省例如发现生物活性分子所需的资源。
Richard D.Cramer III.等人(J.Med.Chem.，17(1974)，第553至535页)公开了一种子结构分析方法，其作为解决药物设计问题的一种方法。文章认为必须从分子的结构成分(子结构)及其分子外和分子间相互作用的综合贡献来解释分子的生物活性或其任何一种性质。从含有该个子结构的以前测试的化合物的数据可获得给定子结构对活性所起的可能贡献。第一步是制备一汇集可用数据的子结构“经验表”。每个子结构的“子结构活性频率”(SAF)定义为含有该个子结构的活性化合物的数目与含有该个子结构的测试化合物的数目之比。子结构活性频率被认为表示该子结构对一种为活性的化合物的可能性可以作出的贡献。然后，计算每种化合物在该化合物内的子结构的SAF算术平均值。
虽然现有技术可以按化合物的SAF平均值进行排列，但要得到这样一个数值需要计算存在于化合物的每个子结构的SAF算术平均值。而且，这种计算所要求的SAF值是上述的计算的结果，涉及对每一种测试分子的每个子结构的评估。因此，这种方法需要大量的计算开支，这使该技术不适用于现有可采用并可用作进行分子结构分析信息源的较大数据集。不过，Cramer方法实际上不能估算一个子结构对活性的真正贡献。
所以，在化学结构分析领域上还有其他许多技术。
EP 938 055 A叙述了一种定量结构活性关系推导方法，该方法根据高通量筛选得出的数据通过识别使化合物具有“活性”的结构特征达到。这种方法用于建立生物活性化合物的统计模型，首先将各种化学描述符(chemicaldescriptiors)与一给定化合物集联系起来，然后，利用一小组已知生物活性的化合物基于模型预测新化合物是否具有生物活性。
Sheridan和Kearsley(J.Chem.Inf.Comput.Sci.，35(1995)，第310-320页)叙述了用遗传算法选择片段子集，用于构建一个组合库。这种方法包括自分子片段子集产生分子群以及用相似性探针或趋势载体法在特定描述符(例如原子对或拓扑扭转)的基础上计算每种分子的分值。用遗传算法还可以产生其他分子群，并作计算。所得结果提供了一个出现在最大分值分子内的片段表，可用作构建组合库的基础。
WO 99/26901A1揭示了一种化学物质如分子的设计方法。一种化合物由一个骨架和多个位点组成。该方法先选择位点的候补元素和建立预测的设计阵列PAD。PAD的其中一个例子由许多满足某些组合条件的虚拟化合物组成。然后，合成这些化合物，测试其生物活性。接着，进行运算以预测那些没有被合成的化合物的全部生物活性。为此，计算候补元素的性质贡献值，其表示各种元素对活性的各自贡献。另外，计算在特定位点上各个取代基对生物活性的平均贡献。该文给出如何计算这种贡献的一个例子。
H.Gao等人(J.Chem.Inf.Comput.Sci.(39)1999，164-168)在一篇论文中叙述了应用QSAR(定量结构-活性关系)技术来解决药物发现的问题。选择具有生物活性的化合物后，使它们的生物活性最优化。由于QSAR是基于生物活性与分子结构之间的假设关系，所以这种技术与识别使化合物具有活性的结构特征以及预测具有活性或无活性的同系物有关。
WO 00/41060 A1揭示了一种使物质活性与物质的结构特征联系起来的方法。术语“特征”是指与一模式匹配的一结构的原子和键。第一步确定符合给定结构特征和性质限制的一物质集的原子。然后，为每一类活性指定属于所述类别的物质。按一些活性类别使物质集分类后，计算任何一个子集的预测活性，并为物质集每一个结构特征构建一个活性-性质-特征位元矢量(bitvector)集，该集合指定许多物质含有所述特征并属于所述的活性类别。该文涉及生物活性，也与药物发现有关。
US 6,185,506 B1揭示了一种方法，该方法根据有效的分子结构描述符选择一个最佳多样化小分子库。使用多个含有各种各样化学结构及相关活性的文献数据集。活性可以是生物和化学活性。这种技术在有关药理药物的章节中有所叙述。此外，该专利还揭示了一种选择产物分子子集的方法，该方法用于在组合合成中由特定的反应剂分子和共同核心分子可能形成的全部可能的产物分子。在背景技术部分中提到了生物特异性库，它们的设计是基于对从已知具有活性的分子结构中取出的结构片段的几何排列的认识。该专利揭示，使用合理设计的、仍然保留组合上易于达到的化合物多样性的较小筛选库是绝对必要的。
WO 00/49539 A1揭示了一种分子集的筛选方法，用于识别可能与特定活性有关的分子特征集。术语特征涉及化学子结构。按分子结构，以描述符集为特点，使分子集分组。然后，识别活性水平高的组，寻找各组分子中最通用的子结构，这些子结构可能与观察到的活性水平有相关的关系。建立一个数据集，该数据集表示那些来自原始数据集并包括一般特征子集在内的分子。这种技术采用基于计算机的系统形式，自动分析数据集。
US 5,463,564揭示了一种基于计算机的方法，该方法通过机器人合成和分析多种化合物自动生成化合物。这种方法要重复进行，目的在于生成具有规定活性性质的化学物质。合成包括多种化合物的多样性化学库。通过机器人分析合成化合物获得结构-活性数据。该专利公开了许多数据库，每个数据库包括表示一信息组(field)，其表示各自化合物所指定的一评估系数(ratingfactor)。评估系数是根据化合物的活性与所希望的活性的相符程度而给予每种化合物。
上述的方法或者是“预测的”模型或者仍然无法充分改善活性先导物的产生，以及不能提高在给定化合物集内发现活性化合物的概率。另外，这些常规技术不能满足进入开发系统的分子成功者(hits and leads)的数目增多及质质量提高的需要。

发明内容
所以，本发明的目的是提供一种计算机系统的操作方法以及相应的计算机系统，可增加发现具有生物和/或化学活性的新分子的可能性。
这个目的由本发明要求保护的独立权利要求达到了。
优选实施例在从属权利要求中限定。
本发明的一个优点是提供一种计算机系统及操作方法，其可以增大活性化合物在给定化学物质集内的比例，而集合内的所述物质还未知道具有所希望的活性。这是通过把知识型技术用于识别新药系列(novel hit and leadseries)，特别是通过建立由计算机作分子发现的处理系统来实现。
本发明的另一个优点是通过分析可以分子结构与生物和/或化学性质进行检索的数据库，避免了进行昂贵的实验。因此，本发明的发现方法比较合理，而其本身又将使药物发现的成本较低。
本发明的又一个优点是发现方法更加快速，与现有技术方法相比能在较短时间内识别具有某些所希望的性质的分子。
另外，本发明在生物化学领域特别有利。以前，DNA排序特别是基因组排序提供了氨基酸序列的综合数据库，进行本发明时它可作为起点。然后，根据用作生物活性的化学决定子(chemical determinant)分析的结构表所得结果，本发明可通过预测肽序列用于识别已知的和/或孤独配体和/或孤独配体-受体对。在数据库得到识别和表达后，通过生物化学试验可测试肽序列。故本发明的优点是通过与已确定对某些目标具有活性的化学分子表作比较，可以推断生物结构，从而提供一种识别(反向排序)技术。
以下，将结合附图对本发明作更详细叙述。

图1所示为根据本发明一优选实施例的计算机系统的方框图。
图2所示为根据本发明一优选实施例进行离散结构分析的主要过程的流程图。
图3所示为本发明迭代过程的示意图。
图4所示为根据本发明一优选实施例形成片段库的过程的流程图。
图5所示为基于计算的分值如何选择片段的图解。
图6所示为根据本发明一优选实施例的片段分值的计算过程的流程图。
图7所示为进行迭代时分析片段库的过程的流程图。
图8所示为以通用子结构(generic substructures)选择新化合物的过程的流程图。
图9所示为虚拟筛选用的子结构的产生过程的流程图。
图10所示为当进行迭代时用本发明一优选实施例的退火技术分析片段库的过程的流程图。
图11所示为相对贡献图谱的一个例子，其表示图10的过程中所用的退火技术。
图12所示为曲线图，其显示一种化合物对受体介导的肌醇三磷酸的产生的影响。
图13所示为曲线图，其显示一种化合物对激酶依赖性蛋白质磷酸化的影响。
图14所示为曲线图，其显示一种化合物对磷酸酶依赖性蛋白质去磷酸化的影响。
图15所示为曲线图，其通过绘出决定子对其各自分值的关系显示相对贡献的信息。
图16A-H所示为表示计分函数等价的其他一些相对贡献图谱。
现在，将对本发明作更详细叙述。还会结合所附附图对本发明的优选实施例进行讨论。此外，给出了许多实施例，以说明本发明如何可适用于化合物发现的各种领域。
具体实施例方式
根据本发明，操作计算机系统进行离散子结构分析。接入分子结构数据库。该数据库以分子信息以及生物和/或化学性质进行检索。分子结构信息是适合确定一种分子的分子结构的任何信息。生物和/或化学性质包括生物化学、药理、毒理、杀虫、除草以及催化性质。
本发明的技术利用数据库识别具有给定生物和/或化学性质的分子子集。然后确定所述子集内的分子片段。术语“片段”指分子的任何一个结构亚单元(subunit)，包括简单官能团、二维子结构及其家族、简单原子或键、以及在二维或三维分子空间中结构描述符的任何组合。本领域技术人员应当理解，片段可以是传统化学中没有已知意义的分子子结构。
在子集内的分子结构分裂为片段后，计算每个片段的分值，该分值表示各个片段对给定生物和/或化学性质的贡献。这就是说，本发明基于分子的生物和/或化学性质的现有知识，可以给片段确定分值。如果一种分子、结构或子结构具有给定性质，下文就说它具有“活性”。没有活性的分子、结构或子结构就说它“无活性”。所以，本发明提供一种基于离散生物和/或化学性质信息的子结构分析。故下文将本发明的主要过程称为离散子结构分析(DSA)。
根据本发明，由于片段与表示对给定生物和/或化学性质的贡献的分值相关，所以可将片段看作是决定给定生物和/或化学结果的化学决定子。识别片段要遵循一套逻辑规则(算法)，这是DSA过程本身的固有规则。在本文中，分值本身是以下参数的函数(a)化学决定子在活性分子子集内所占的比率(prevalence)，以及(b)所述同一个决定子在要考虑的全部化合物中所占的比率。
基于这个定义，该方法再识别计分函数的一个或多个局部极值(localextrema)，其对应的化学决定子表示对所希望的生物结果的化学全解或局部解。寻找计分函数在任何一个给定数据集可达到的最大可能数值相当于识别包含在具有最强生物活性的分子子集内的化学决定子，其在同一个子集内偶然出现的概率最低。
现在，将结合附图，特别是结合图1对本发明进行叙述。图1所示为本发明计算机系统的一优选实施例。该计算机系统包括一可由用户接口装置105控制的中央处理器100。装置100和105可以是任何计算机系统，如工作站或个人计算机。计算机系统最好是运行多任务操作系统的多处理器系统。
中央处理器100与程序存储器130相连接，后者存储包括本发明DSA过程的实施指令在内的可执行程序代码。这些指令包括使分子结构分裂为片段的分裂函数135、计算分值的计分函数140、归纳函数145(例如检索异构体)，其用于查找片段结构内的通用项目，并以通用表达式代替这些项目，从而产生通用子结构，进行虚拟筛选的虚拟筛选函数150、以及进行本发明的片段退火过程的退火函数155。以下将详细叙述各个函数以及通过中央处理器100执行这些函数所用的处理器的详细情况。
中央处理器100还与结构活性数据库，或者化合物活性表115连接，以接收分子结构信息及生物和/或化学性质信息。从可以存取外部数据源的数据输入单元110同样可接收这些信息。
通过存取装置110和/或115可以诸如从任何一种可用源例如以子结构和/或生物性质检索的专用或公用数据库获取分子结构子集。公用数据库包括但不限于那些具有下列名称的数据库MDDR、Pharmaprojects、Merck Index、SciFinder、Derwent。也可以通过合成或测试化合物来获得分子子集。分子通常包括全部化合物，但它们本身也可以是分子片段。对于任何一种给定的生物或化学性质，子集包含不具有所述性质的化合物，例如没有活性(或低于给定活性阈值)的化合物，以及具有所述性质的化合物，例如具有所希望的活性(或活性在给定阈值以上)的化合物。所有没有活性的化合物都有关联的，因而要对它们进行分析。
存取内部或外部数据并用存储于程序存储器130的函数进行DSA过程后，中央处理器100就会存储一个包含已确定的分子片段及相关分值的片段库120。
在本发明的一优选实施例中，片段库120是本发明主要方法的结果。之后，例如化学或生物科学家或工程师就可以将片段库120作为一个有价值的信息源，用在以后的任何一种发现方法中。
在另一优选实施例中，片段库120是本发明主要方法的中间结果，因此可存储于易失性及非易失性存储器中。本实施例的片段库120可由中央处理器100在执行存储于程序存储器130的其他函数时读取，以产生化合物集125。
化合物集125是由本发明的方法发现的分子集，可以具有或不具有所希望的生物和/或化学性质。化合物集125的分子可以是已知的结构或可以是以前从未被合成过的假设结构。不论哪一种情况，化合物集125的分子都是根据离散子结构分析评估给予片段的分值的结果。
从图1可见，中央处理器100还与存储化合物集165、片段集170和分值175的数据存储器160连接。设置数据存储器160是为了存储数据，当调用函数135-155时存储输入参数，或者存储这些函数的返回值。
现在参见图2，它所示为DSA主过程的一优选实施例，在步骤210中，图1所示的计算机系统的操作符首先选择一种活性。如上所述，活性指的是任何一种生物和/或化学性质，包括生物化学、药理、毒理、杀虫、除草、催化性质。而且，当用本发明识别孤独配体时，活性可以是对相关蛋白质的给定效应(通常是结合)。
除非另外说明，本说明书参照一种特定的性质如生物活性进行叙述，但可以推广到其他种类的生物和/或化学性质。此外，为了避免产生混淆，术语“化合物”、“分子”和“分子结构”均包括本文所述的分子子结构及完全的化合物(complete compounds)。
在步骤210选择活性后，在步骤220选择化合物集125。所选的化合物集是待检查的分子集，以确定哪一个片段对选择的活性作出贡献。步骤220选择的化合物集包括已知具有活性的分子和已知无活性的分子，下文将作详细叙述。
一旦选好活性和化合物集，就可以在步骤230形成片段库120。形成片段库的过程可看成是权衡分子片段在已知结构子集内对化学和/或生物结果的功效的过程。这个过程包括以下步骤I.识别一个或多个分子子集，所述分子具有与相关化学和/或生物结果有关的给定性质；II.形成一个包括在所述一个或多个分子子集内分子片段的初级库；III.用一种算法估算所述片段对相关化学和/或生物结果的贡献；以及IV.用所述算法计算所述每个片段的分值，按数量级排列这些分值；从而，将最有可能对相关化学和/或生物结果作出贡献的那些片段与例如排名最高的分值联系起来。
如上所述，片段库120包含片段和所得的片段分值。一旦步骤230形成片段库120后，就可以在步骤240进行或不进行反复迭代过程。
以反复迭代的方式实施DSA过程能有效地使用计算资源。例如，这个过程最好从小片段开始。因为分子结构内可能的片段数目随着待检片段的最大尺寸而大约呈指数上升，开始时这个最大尺寸值设得相当低，以便可处理尽可能多的分子结构。
步骤210至230的过程是发现对所希望的活性贡献大的片段。被发现的片段再用于下一轮(或循环)，以便发现尺寸更大即分子量更大的片段。图3所示为迭代过程的一个例子。第一轮发现片段C＝O对所希望的活性的贡献较大。再以这个片段搜索尺寸比第一轮所得的片段大、并包括该片段的片段。在图3所示的实施例中，第二轮显示片段N-C＝O是该尺寸相对所希望的活性的最佳片段。然后继续这样一个重复迭代过程，不断增大片段的尺寸，这样可得到一种可能具有所希望的生物和/或化学性质，而且适合所需应用的化合物。
现在再参照图2，如果决定在步骤240进行下一轮或下一个循环，就在步骤250分析步骤230形成的片段库120，并使过程返回步骤220。下文会详细叙述如何在步骤250分析片段库120的例子。需要注意的是，迭代过程可以应用更高级的函数如归纳函数145和退火函数155，以进一步改进用离散子结构分析的发现方法。
最后，当决定步骤240不进行反复迭代，或者完成迭代过程，就在步骤260形成化合物集125。
现在转到形成片段库120的步骤230，结合图4至6叙述该形成过程的子步骤的优选实施例。首先，接入内部数据库115和/或外部数据源，以及识别分子子集后，在步骤410接收与已识别的分子相关的结构活性数据。然后，在步骤420确定该子集内的分子片段。
有许多常规技术可以使分子分裂。例如，用一种算法可以发现相互键合的原子的任何一种排列。分裂函数135可选用最小尺寸和最大尺寸的片段。给出的另一个例子是指令分裂算法跳过那些其原子呈线性排列的片段。此外，还可限定算法包括或排除某些类型的键。本领域技术人员可使用的分裂函数有多种不同类型。
这就是说，在概念上每个分子结构都可分裂为一系列离散子结构或片段(步骤420)。这些片段可以是简单官能团，如NO2、COOH、CHO、CONH2；精确二维子结构，例如，邻硝基苯酚；定义宽松的子结构家族，如R-OH；普通原子或键，或者在二维或三维化学空间中的结构描述符的任何一种组合。
在步骤420将分子分裂为片段后，在步骤430计算每个片段的分值并将所计算的数值与该片段联系起来，计算片段的分值。然后，在步骤440确定最高分值片段，在步骤450存储该片段。
图5所示为如何确定最高分值片段的一个例子。在该实施例中，以确定的分值对包括各个片段的化合物的数目作图。曲线上一点表示一片段。在步骤440用这一曲线得到的信息比只是通过比较分值来选择最高分值片段所得到的信息多，这是因为该曲线还利用了有关包括各个片段的化合物的数目这一信息。
发现最大可能分值的过程可以被认为是相当于形成一种分级相关的、对应给定的生物和/或化学活性的分子片段的演化网(phylogenic mesh)。在这种设定中，网节点由片段本身提供，用对应节点与原点的距离，即网格本身的基本长度使任何单个片段是生物活性的基础成为可能。故任何一个给定片段的分值越大，相应节点与格子原点的距离越远，该片段表示对例如由相关目标识别的药效团(pharmacophore)的化学解的可能性越高。
现在结合图6详细叙述计算片段分值的步骤430。计分函数140的使用应符合以上所述的逻辑规则集或者计算步骤。在一优选实施例中，本发明的DSA方法包括把与每个片段所占的比率(prevalence)相关的变量加到估计每个给定片段的分值的一个或多个数学函数中的步骤。
所述算法是以下变量的函数(a)在子集内分子数x，它们符合与所希望的结果相关的给定阈值，而且含有给定片段；(b)在所述子集内分子数y，它们含有所述片段，而不论它们是否符合所述阈值；(c)在所述子集内分子数z，它们符合所述阈值，而不论它们是否含有所述片段；(d)在子集内的全部分子数N。
由(a)所得的结果可以是任何一个与化合物的活性有关的所希望的参数，包括但不限于生物、生物化学、药理和/或毒理活性。根据它是否具有与给定阈值有关的所希望的参数，如特定活性水平，再分析数据集内的每种化合物或分子。阈值可设成任何所希望的水平。下文所说的“活性的”化合物是符合所希望的阈值的化合物，而“无活性的”化合物是不符合所希望的阈值的化合物。这些术语不代表所述化合物的任何一种绝对性质。
关联性评估(measure of association)或计分函数140代入变量x、y、z和N，确定给定片段的贡献。如本领域技术人员所周知，有许多可能的关联性评估，主要分为三类
减法评估例如，Nx-yz比例评估例如，x(N-y-z-x)/(z-x)(y-x)混合评估例如，(x/z)-(z-x)/(N-z)需要注意的是，可以选择任何一种关联性评估，本领域技术人员很容易就能够作出适当选择。
所以，步骤430所用的算法包括(见图6)(i)估算子集内化合物数x，它们符合与相关化学或生物结果有关的给定阈值，而且含有给定化学决定子(步骤610)；(ii)估算所述化合物子集内化合物数y，它们含有给定化学决定子，而不论它们是否符合所述阈值(步骤620)；(iii)估算所述化合物子集内化合物数z，它们符合所述阈值，而不论它们是否含有给定化学决定子(步骤630)；(iv)估算化合物子集内的化合物总数N(步骤640)；(v)关联性评估代入变量x、y、z和N中二个或多个变量(步骤650)，优选代入三个或四个变量，最好代入全部四个变量。
关联性评估可直接使用以确定对应给定片段的贡献的分值。不过，最好还是把关联性评估转化为计分函数，以便评估子结构对结果作贡献的可能性。这有助更清楚地确定由全部待分析片段所得到的分值的排列。利用本领域公知的方法可将关联性评估转化为计分函数。例如，这些方法可选自统计学方法，如临界比率方法(critical ratio method)(z)；Fisher’s精确检验(Fisher’sExact test)、Pearson’s卡方检定(Pearson’s chi-squared)；Mantel Haenzel’s卡方检定(Mantel Haenzel’s chi-squared)；以及基于但不限于对斜率等进行推理的方法。但也可用统计试验以外的其他方法。这些方法包括但不限于精确和近似置信区间的计算和比较、相关系数、或者包含关联性评估的任何一个函数，其含有上述变量x、y、z或N中的一个、二个、三个或四个的各种组合。
本发明所用的表示关联性评估或计分函数的数学公式的例子包括(I) x/z(II)x/N
(III) Nx-yz(IV)(x/z)-(y/N)(V) (x/z)-(z-x)/(N-z)(VI)---x(N-y-z+x)(z-x)(y-x)]]>(VII)---Nx-yzz(N-z)y(N-y)]]>(VIII) e[(x/z)-(z-x)/(N-z)](IX)---(|Nx-yz|-N/2)2Nz(N-z)y(N-y)]]>(X)---x(N-y-z+x)(z-x)(y-x)e-21/x+1(y-x)+1/(z-x)+1/(N-y-z+x)]]>(XI)---x1(N-y-z1+x1)(z2-x2)(y-x2)x2(N-y-z2+x2)(z1-x1)(y-x1)]]>(XIII)---1dΣi=1d((Nx-yz)2Nz(N-z)y(N-y))i]]>本领域技术人员将把计分函数(VII)当作积矩相关系数，该函数反映两个未在所述公式中示出的对分变量之间共享方差程度。
本领域技术人员将会认识到计分函数(VIII)与危险相对比(risk odds ratio)的估算有关，这种估算是用表示两个对分变量之间存在的共享方差程度的回归线斜率所作出的。
本领域技术人员将把计分函数(IX)当作对各种混杂系数修正的卡方相关统计量。例如，以对数换算的乘积的第二个商值分子中N/2项是一种二项式分布的近似于正态的保守调整，其对x、y、z或N为较小数值时可用作修正。本领域技术人员将会认识其他关联性评估和/或计分函数可用于同样目的，代替公式(I)和(II)表示的那些，在本发明的意义上，其中最恰当的是包含变量x、y、z和N中一个、二个、三个或四个的各种组合。
本领域技术人员将把计分函数(X)当作一种方式，通过用对数转换使比例分布更接近正态分布，以及用一次泰勒级数近似式估算同一个比例的对数方差，可以用这种方式估算测量(III)的95％置信区间下限值。
本领域技术人员将把计分函数(XI)当作一种与相对比比较的方法，使人们可以识别最有可能对某一个目标较对其他目标具有选择性的化学决定子。
本领域技术人员将把计分函数(XII)当作一种与关联的多个测试结合的方法，使人们可以识别最可能同时对两种或多种给定性质产生影响的化学决定子。
本领域技术人员还将会认识到计分函数可以被修正为包括其他与分子材料、生物、化学和/或物化性质有关的变量。例如，这样的修正包括但不以任何方式限于以下变量的调整化合物功效、选择性、毒性、生物可用度、稳定性(新陈代谢或化学)、合成可行性、纯度、商业可用性、用于合成的合适试剂可用率、费用、分子量、摩尔折射率、摩尔体积、logP(已计算或已确定)、接纳基团的氢键数、提供基团的氢键数、电荷(局部或形式)、质子化常数、含有其他化学钥或描述符的分子数、旋转键数、弹性指数、分子形态指数、排列相似性和/或重迭体积。
因此，例如计分函数(VIII)可以作进一步修正，以便例如计算研究中的每个化学决定子的分子量(MW)，表示如下MW·e[(x/z)-(z-x)/(N-z)]同样地，也可使计分函数(IX)修正为包括变量MW和[S]，它们分别表示相关化学决定子的分子量(MW)，以及所述同一个化学决定子出现在活性化合物子集x内的次数([S])，表示如下以便更容易在分析期间识别最大可能单例(singleton)生物活性化学决定子。
算法步骤650的结果提供了研究中的片段的分值。数据内每个选定片段都可以重复算法步骤610-650。当所有选定片段的分值被计算出来时，这些结果就会提供一个对应已被分析的各片段的潜在功效的分值。所述分值可按数量级排列；其中使那些最有可能对相关化学和/或生物结果作贡献的片段与例如排名高的分值联系起来。这可以在步骤440识别计分函数数值的一个或多个局部极值，其对应的化学决定子表示对所希望的化学或生物结果的全解或部分解。在任何一个给定数据集内查找可达到的最大分值相当于识别具有所希望的性质的分子子集所包含的化学决定子，而所述分子的化学决定子偶然出现在同一个子集内的概率最低。当所希望的性质是给定生物活性时，最高分值的片段或化学决定子表示具有生物活性的药效团(pharmacophore)。
现在返回图2，下面讨论分析片段库120的步骤250的优选实施例。
图7所示为分析片段库120的一种方式。该过程开始是在步骤710根据上一轮确定的分值选择片段。再在步骤720从含有选择片段的上一个集合抽取化合物。由于步骤710选择了对所希望的活性贡献大的片段，所以可将步骤720抽取的化合物看成是活性化合物。接着，在步骤730从上一个集合或数据库或任何一个其他来源选择无活性的化合物集。再在步骤740将具有活性和无活性的化合物组合在一起，形成新化合物集。然后，在步骤220选择新化合物集作为产生下一轮迭代的化合物集，再进行下一轮迭代。
现在结合图8叙述进行步骤730的优选实施例。该实施例利用通用子结构选择下一轮用的新化合物集。
图8所示的过程首先在步骤810分析步骤710所选的片段的结构。当使用的是本发明的通用子结构时，通过评估上一轮计算的分值可选择步骤710所选的片段。此外，也可根据影响片段是否适合成为通用起点的其他因素来选择片段。这种合适性可以是关于原子数或键数、原子如何键合的方式、各个片段的三维结构等的函数。
在步骤810分析选择的片段的结构后，在步骤820寻找片段结构内的通用项目。再在步骤830以通用表达式代替该项目，得到通用子结构(例如找到生物isosters)。一个例子是
在给定选择的片段中，找到两个通用项目，并以通用表达式[Ar]和A代替，其中[Ar]表示芳香中心，而A表示碳或硫。
然后，用步骤830形成的通用子结构进行虚拟筛选，以找出与通用子结构匹配的新化合物。术语“虚拟筛选”指的是只用数据进行的任何一个筛选过程，这样就无需合成化合物。接着，用经过虚拟筛选发现的新化合物在步骤850构建下一轮反复迭代用的新化合物集。
如图9所示，虚拟筛选过程可分为以使用通用子结构而得出的对片段的域外和域内修饰。在步骤910进行的域内修饰包括片段的原子的取代、插入、缺失和反转。从以上所述的精确片段开始，以及使该片段为为通用子结构，在下面的实施例中得到三种不同取代在步骤920进行的域外修饰包括改变片段的取代基。这些取代基可以是无规的或聚集的，等等
聚集的化合物集是基于一个或多个通用子结构的修饰的分子集如图9所示，域内和域外修饰的实施步骤要连续地进行，本领域技术人员需要注意的是，本发明只进行了这些不同种类修饰中的其中一种，或者以不同顺序或甚至并行进行两种修饰。需要明白的是，虚拟筛选结果得到的多样性化合物集具有活性的可能性较高，这是因为它们富含与活性相关的子结构。
在步骤710选择一个片段，其成为使用归纳函数145的基础，以获得通用子结构，本发明的另一个优选实施例是选择更多高分值片段以产生通用子结构。例如，以下所示的片段对所希望的活性贡献较大，在步骤710被选取然后，使这些所选取的片段还原为高分值通用子结构，如再用这些通用子结构虚拟筛选商用数据库或公司(corporate)化合物集。
以上叙述的反复迭代过程有利计算推理，这是因为它是以小片段开始，经过一轮一轮增大片段的尺寸，它也显示了在反复迭代过程中用通用子结构可以增大发现的能力，本发明的另一种方法可进一步改善本发明的离散子结构分析过程。这种方法基于退火技术，下面将结合图10进行叙述。
在图10所示的优选实施例中，分析上一轮产生的片段库的步骤250以选择第一和第二片段的步骤1010和1020开始。根据计算的分值选择这两个片段，将它们看作贡献大的片段。
在下一步骤1030中，用退火函数使第一和第二片段连接起来。把片段连接起来意味着限定包括两个片段在内的分子结构或子结构。为此，可采用多种不同退火函数155。这些退火函数在如何评估和使用某些退火参数的具体运用上各有不同。退火参数是例如第一与第二片段的(给定)距离、第一与第二片段的三维方向、置于片段之间的原子数、用于使片段胶合在一起的键数、键和原子的种类等。
此外，退火过程最好与上述通用子结构结合使用。例如，如果步骤1010和1020选择已知具有高分值的片段F1和F2，那幺在步骤1030选择以及进F1-[G]-F2入步骤1040的退火函数可以使用通用表达式使这些片段连接起来。通用表达式[G]是给定性质的分子子结构及退火参数的同义词，取决于所用的退火函数。
一旦通过精确或通用表达式使这些片段结合，就可以在步骤1040形成包括该两个片段在内的新化合物集。图11所示为新化合物集其中一种分子的例子，该图是相对贡献的二维图谱，其显示与局部座标有关的相对贡献。从图11可见，有两个局部最大值，它们是片段F1和F2的近似分值1.2和1.7。
退火过程有两个优点。第一个优点是通过把对所希望的活性贡献大的两个片段连接得到大分子，从这一事实预测到这些大分子包括一个以上高分值分子。因此所得结构的分值很大机会比两个片段的最高分值还高。
例如，在图11所示的结构中，所得的化合物包括分值为1.2和1.7的片段，但整个结构的总分值可以是诸如2.1。所以，退火技术甚至可以发现活性更高的化合物。
第二个优点是退火技术可以避免计算过程出现死锁。如图11所示，相对贡献值表示两个局部最大值。当进行图3所示的反复迭代过程时，以小片段开始，在一轮一轮的每个迭代过程中增大片段尺寸，当其中一个中间步骤所选的片段位于局部最大值时就会出现死锁。
例如，在第二轮结束时选择片段N-C＝O，而该片段位于局部最大值时，下一轮就无法进行。如上所述，下一轮的片段最好由上一轮的片段构成，而且使上一轮片段的尺寸递增。故不论何种原子加在所选择的片段上，下一轮都会使片段移离局部最大值。这就是说，在此情形下得到的任何一个片段的分值均比上一轮选择的片段低。
为了避免出现死锁，应用退火技术时可从上一轮选择两个良好片段，把这两个片段连接起来，计算分值，然后继续该过程。这可以一轮一轮周期性地进行，或者当检测到有死锁时进行。
以上用了许多优选实施例对本发明进行叙述，需要提醒本领域技术人员注意的是，本发明不以任何方式限于这些实施例。例如，可以改变流程图所示的方法步骤的顺序，或者图中示出的连续进行的步骤甚至可以并行进行，例如见图10所示过程中的步骤1010和1020。
另外，对本领域技术人员显而易见的是，使用时不一定用到所给出的全部方法步骤。例如，在图6的计分过程中，就不需要计算计分函数不用的参数。也可用多任务或多路径操作系统平行计算参数。
现在，对本发明其他实施例作举例说明。
例如，步骤230形成的片段库理论上可包含全部可能的片段及其组合。如果该片段库由计算机形成，这在实际上是可以达到的。然而，如果片段库是人工形成的，则它可能只包含被选择的全部可能的片段。因此可用片段的组合，特别是在先前的分析中得到的高分值片段的组合，重复这种方法。
所以，对片段初步分析后，可以把最有可能对相关化学和/或生物结果作出贡献的那些片段组合在一起，用上述其中一种算法估算所述组合片段对相关化学和/或生物结果的贡献。把所得的分值与各片段的分值作比较，以确定该组合对相关化学和/或生物结果的贡献是否有所提高。
在本发明的另一优选实施例中，从对相关化学和/或生物结果的贡献最大的片段中可以挑选一个共同结构部分，以确定所述共同部分的贡献是否等于或大于原始片段。
具有最高分值的片段表示对给定的化学或生物结果的贡献最大的化学决定子(chemical determinant)或分子指纹(fingerprint)。
确定所述指纹后，就可以形成一个包含所述化学决定子的化合物库。这些化合物可以围绕所述结构特征通过合成程序而制成。此外，也可自市售目录识别含有化学决定子的化合物，以及可自有关来源购买。没有必要为了药物用途而制备化合物，它们的获得有多种来源可供选择。
一旦组合了所希望的库，就可以针对相关目标进行筛选。筛选的结果可以识别具有的活性足以作进一步研究，或者为合成程序提供先导物的化合物。本发明的DSA方法可以相对特定的生物或药理目标形成多样化但高度聚集的库。因而大大增加了成功筛选活性化合物和/或有用先导物的可能性。
在又一实施例中，本发明提供一种具有某些所希望的性质的分子如生物活性分子的识别方法，所述方法包括·使分子子集内的分子片段的贡献加权到上述给定化学或生物结果，·识别具有最高加权的一个或多个片段，以及·汇编化合物集，所述化合物包含所述一个或多个片段，以及·可选择地测试所述化合物中所希望的活性。
需要注意的是，该方法同样可用于识别产生不希望的性质如不利的生物副作用的片段，下文不考虑具有所述片段的化合物。
由此可见，本发明的方法产生结构假想片段，通过计算定量分值估算它是对给定生物、生物化学、药理或毒理结果的解释的可能性。考虑给定片段的分值可使药物研制人员知道最有可能达到所需目的的方法从而作出决定，例如识别功效更大的化合物、发现新系列活性化合物、识别选择性或生物可用度更大的化合物或消除毒性效应等。
本发明的方法针对出现在相关化合物子集内的片段，因而无需对化学空间中大量但很可能无关的部分进行冗长的计算。这样的结果是减少需要处理给定生物结果的计算步骤的数目，但保留分子的基本水平，该水平是假设生物活性化学决定子存在所必需的。
如上所讨论，本发明的方法包括搜索一个或多个函数的局部极值，这些函数的选择要对应共用统计表给出的概率。这种方法提供一种评估给定片段对化学或生物结果的潜在贡献的精妙方法。然而，进行本发明不需要以统计理论作出的分析为基础。
本发明的DSA方法可广泛用在药物发现的应用中。如上所述，该方法可识别对给定生物活性作贡献的可能性较高的药物团，如7-TM受体拮抗剂、激酶抑制剂、磷酸酶抑制剂、离子通道阻断剂和蛋白酶抑制剂以及天然存在的肽能配体的活性基团。
这个方法也可以识别药物目标的内源调节剂，因而有助识别药物干预的新削减，以及有助合理地把新的药理性质引入到原来缺少所述这些性质的分子中。
这个方法还可用来识别数据集内的假阳性和假阴性结果，例如，那些自高通量筛选产生的结果。DSA通过例如识别潜在的不希望的第二效应而用于预测化合物的选择性。
这种方法以同样的方式可通过识别化合物中“发毒的”化学决定子而预测化合物的毒性效应，结合以上所述可以构建用途很广的化学决定子数据库，用于选择化学系列。在本文中，该方法还可以将新的药理性质合理地引入到原来缺少所述这些性质的分子。最后，DSA方法能够识别筛选运动过程中需要测试的分子多样性的最合适水平，由此而可以有效地进行合理的大规模平行的自动高通量筛选运动，相对现在的HTP发现策略这是一种明显的改进。
需要注意的是上述方法中至少有一步由计算机控制系统执行。所以，可以输入取自数据库的变量例如x、y、z和N，用已适当编程的计算机处理。所以本发明延伸至这些由计算机控制或计算机执行的方法。
很明显，从以上叙述可见本发明提供一种快速识别具有某些所希望的性质的分子如生物活性分子的新方法。具体地说，本发明涉及一种使分子结构功效加权的方法，以识别分子结构的生物活性基团，并用这些基团设计聚集型化学物集，更快速和更具成本效益地发现药物。
本发明提供一种增加生物活性化合物在给定化学物质集内的比例的方法，其中所述物质还未知道具有所希望的生物活性。所述方法涉及应用各种数学方法确定定量结构活性关系(QSAR)。这种新方法可称为离散子结构分析(DSA)，它解决了例如药理模式识别的问题，即识别负责给定化合物的任何一种给定化学或生物结果的化学决定子的问题，给定化学或生物结果可以是例如生物、生物化学、药理、化学和/或毒理活性。
本发明的方法有着广泛应用，并不限于药物学领域。就生物活性化合物而言，该方法可用在例如杀虫或除草剂方面，其中所希望的生物活性分别是杀虫和除草活性。该方法也可用于反应模型的应用中，其中所希望的性质是化学属性而非生物属性，如催化剂的制备。
需要注意的是，本发明的技术是使子集内或者不同子集间那些最有可能对相关化学和/或生物结果作贡献的片段组合在一起，用一种算法估算所述组合片段对相关化学和/或生物结果的贡献，从而把所得的分值与各个片段的分值作比较，以确定该种组合对相关化学和/或生物结果的贡献是否有所提高。
本发明还可以从对相关化学和/或生物结果贡献最大的片段中挑选一个共同结构部分，识别所述共同部分的贡献是否等于或大于原始片段。
此外，使用的关联性评估最好选自减法评估、比例评估或混合评估。最好将关联性评估引入计分函数，或者转化为计分函数。利用选自如临界比率方法、Fisher’s精确检验、Pearson’s卡方检定、Mantel Haenzel’s卡方检定、基于对斜率等进行的推理的方法等统计学方法，可转化为计分函数。另一优选实施例是用选自精确和近似置信区间的计算和比较、相关系数、或者包含关联性评估的任何一个函数，其含有一个、二个、三个或四个变量x、y、z或N的任何一种组合的方法转化为计分函数。
本发明最好进行选择含有最高排名的片段的分子作为潜在配体的步骤，然后选择性地作为药物目标调节剂对它们进行测试。本发明的方法最好用于识别假阳性和/或假阴性实验结果。其他适合的应用是进行相似性搜索、多样性分析和/或构象分析。
下面给出本发明DSA方法的各种应用的实施例。这些是本发明的优选实施例，起到举例说明本发明的作用，但不能被认为是对本发明范围的限制。
实施例1 新型选择性受体配体的理性识别本发明研制了一种用重组膜制剂和带放射性标记的肽进行细胞表面受体的竞争结合试验。按照本发明的方法使试验用的测试化合物组合在一起，对它们进行测试，并识别新的受体配体。第一步是参照现有的科学文献汇编一个表，其列出所述同一种受体拮抗剂的208个结构。第二步是识别该208种受体配体所包含的生物活性化学决定子。为此，编制另一个表，其含有对所述同一种受体没有影响的101,130个结构，并加到第一个表中。然后通过选择关联性减法评估(1)分析所得到含有101,338个结构的表是否存在生物活性化学决定子，其中x表示含有相关化学决定子的活性化学结构的数目，y表示含有所述同一种化学决定子的化学结构的总数，z表示含有N个分子的集合内活性化学结构的总数(即z＝208)，而N表示要分析的化学结构的总数(即N＝101,338)。
(I) Nx-yz再将关联性评估(I)转化为计分函数(II)，本领域技术人员将把其作为一种为各种混杂系数作修正的偶然出现的概率的间接评估。例如，以对数换算的乘积的第二个商值分子中N/2项是一种二项式分布的近似于正态的保守调整，其对x、y、z或N为较小数值时可用作修正。变量MW和[S]分别表示相关化学决定子的分子量(MW)，以及所述同一个化学决定子出现在活性化合物子集x内的次数，包括在计分函数内，这样就更容易在分析期间识别最大可能单元集生物活性化学决定子。本领域技术人员将会认识到其他关联性评估和/或计分函数可用于同样目的，代替公式(I)和(II)表示的那些，在本发明的意义上，其中最恰当的是包含变量x、y、z和N中二个、三个或四个的各种组合。
本领域技术人员也会认识到计分函数(II)可被修正为包括其他与分子材料、生物、化学和/或物化性质有关的变量。例如，这些修正包括但不以任何方式限于以下变量的调整化合物功效、选择性、毒性、生物可用度、稳定性(新陈代谢或化学)、合成可行性、纯度、商业可用性、用于合成的试剂可用率、费用、分子量、摩尔折射率、摩尔体积、logP(已计算或已确定)、接纳基团的氢键数、提供基团的氢键数、电荷(局部或形式)、质子化常数、含有其他化学钥或描述符的分子数、旋转键数、弹性指数、分子形态指数、排列相似性和/或重迭体积。
对101,338个结构进行分析导致识别出8种不同的化学决定子，其分子量从150至230Da，仅基于可能性其包含在活性化学结构子集内的概率少于1/10,000(p＜0.0001)。因此，这8种化学决定子被认为是表示自文献产生的208种受体配体的一个或多个生物活性基团，组成第四个表。接着用公式(II)反复计算，以确定是否可识别由该组合得到的较大化学决定子或者这8个片段的其他任何一种扩展。在这些附加计算中发现最大统计学意义的化学决定子的分子量是335Da，它被选作代表性骨架，或者作为以后选择和合成化合物的药理活性“指纹”。这个方法的第三步涉及用上述代表性骨架作为模板虚拟筛选和选择化合物。为此，用计算过的指纹及其片段在含有超过600,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得1360种化合物，从同一个供应商随机选择和获得另外1280种化合物，以作对照目的。
构成本方法最后阶段的第四和第五步平行进行。第四步包括在放射性配体结合试验中测试上述两种化合物。根据代表性骨架在1360种分子中选取205种分子，其测定浓度范围为1和10μM之间时具有竞争活性，选取21种化合物，其测定浓度范围为0.1和1μM之间时具有活性，以及选取1种化合物，命名为化合物A，其对8.1+1.05nM(n＝12)的受体(Ki)具有亲和力。使1280种随机选择的化合物中每一种以10μM浓度进行测试，它们证实没有受体结合性质。所以，基于代表性指纹汇编的化合物集输送活性分子的效率比随机化合物集至少高21倍(p＜0.0001)。
本发明发现，化合物A表示一类从未被报告过的新型相关受体抑制剂。图12所示为化合物A对受体介导的肌醇三磷酸的产生的影响。表达相关受体的细胞预先装上带放射性标记的肌醇，在化合物A存在下与受体激动剂接触，接触期间增加化合物A的浓度。从亲和层析柱洗脱带放射性标记的细胞肌醇磷酸盐后，测定肌醇三磷酸(IP3)的产生。化合物A以IC50为20nM的抑制激动剂诱导的IP3的产生，该数值与化合物对受体的亲和力相符。
如图12所示，化合物A在基于细胞的功能测试(IC50＝22nM)中使受体介导的肌醇三磷酸的产生显着减少，这一发现与化合物对受体的亲和力，以及受体拮抗剂在上述的计算中的应用相一致。最后，确定化合物A对相关受体具有高度选择性，就此而言，在20种以上其他放射配体受体结合试验中还无法证明它有显着的抑制活性。
在物质组成意义上及考虑到识别具有受体结合活性的新分子，第五步是用上述代表性骨架指导新化合物的概念设计和合成。为此，列出一个含有化学反应物和反应产物的表，其中反应物的化学结构内或者所得反应产物内包含上述具有生物活性的代表性骨架。选择超过2000种组合，合成测试用的相应的反应产物。在受体结合试验中测试这些化合物，在物质组成意义上可识别到一类新化合物，其中许多代表性化合物的IC50s在50至500nM范围内。
实施例2 新型选择性激酶抑制剂的理性识别本发明研制了一种涉及炎症的人激酶的酶测定，而现有文献从未有叙述过人激酶的抑制剂。按照本发明的方法使测定用的测试化合物组合在一起，对它们进行测试，并识别新的激酶抑制剂。第一步是从科学文献汇编一个表，其列出2367种嘌呤核苷酸结合蛋白抑制剂的化学结构，包括具有抑制其他激酶、磷酸二酯酶、嘌呤核苷酸结合受体、以及嘌呤核苷酸介导的离子通道等统称为“替代目标(surrogate targets)”的化合物结构。第二步是识别该2367个化学结构所包含的生物活性化学决定子。为此，编制另一个表，其含有对所述同一些替代目标没有影响的98,971个结构，并加到第一个表中。然后通过选择关联性比例评估分析所得到含101,338个结构的表是否存在生物活性化学决定子，其中x表示含有相关化学决定子的活性化学结构的数目，y表示含有所述同一种化学决定子的化学结构的总数，z表示含有N个分子的集合内活性化学结构的总数(即z＝2367)，而N表示要分析的化学结构的总数(即N＝101,338)。
(III)---x(N-y-z+x)(z-x)(y-x)]]>再将关联性评估(III)转化为计分函数(IV)，本领域技术人员将把其当作一种方式，通过这种方式用对数转换使比例分布更接近正态分布，以及用一次泰勒级数近似式估算同一个比例的对数方差，可以用计分函数(IV)估算测量(III)的95％置信区间下限值。在此情形下，除了x、y、z或N外计分函数不再使用其他变量，虽然对本领域技术人员显而易见的是，公式(IV)也可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(III)和(IV)表示的那些，在本发明的意义上，其中最恰当的是包含变量x、y、z和N中二个、三个或四个的各种组合。
用公式(IV)计算一系列化学决定子以分析101,338种被注解为具有各种生物活性的结构，直至识别到一组或多组化学决定子，其元素的数值比对应仅基于可能性包含在生物活性结构子集内的概率少于1/20(p＜0.05)的数值大。因此，这些化学决定子被认为是表示文献所述替代目标抑制剂的一个或多个药理活性基团，组成第四个表。与实施例1所述搜索这些决定子中具有最大分值的组合相反，直接用这些结构作为代表性骨架，或者作为以后选择和合成的化合物的药理活性“指纹”。
第三步涉及用上述代表性骨架作为模板虚拟筛选和选择化合物。为此，用计算的指纹、片段及其组合在含有超过250,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得2846种化合物，如实施例1所述用同一个含有1280种随机选择的化合物的集合作为对照。
构成本方法最后阶段的第四和第五步平行进行。第四步包括在酶测定中测试所获得的化合物。基于代表性骨架在2846种分子中选取88种分子，其测试浓度为5μM时具有抑制活性。在这些分子中，有6种分子的IC50s在0.2至2μM范围内，其中一种化合物被命名为化合物B，其IC50是164nM(图13)。
图13所示为化合物B对激酶依赖性蛋白质磷酸化的影响。在化合物B存在下使相关激酶与带放射性标记的ATP和肽基质一起培养，期间增加化合物B的浓度。用标准放射性测量技术测定蛋白质磷酸化。化合物B显着抑制蛋白基质激酶依赖性磷酸化，其IC50是164nM。
在作对照的1280种随机选取的化合物中，只有3种在筛选测定中具有抑制活性，其中最有功效的化合物的IC50只有7.8μM。因此，基于代表性指纹汇编的化合物集输送活性分子的效率至少是随机选取的化合物集的13.2倍(p＜0.0001)。本发明发现，化合物B表示一类从未被报告过的新型ATP-竞争激酶抑制剂，用结构和功能相关的替换激酶在选择性测定中进行测试，它对相关激酶的选择性大250倍。
在物质组成意义上及考虑到识别具有激酶抑制活性的新分子，第五步是用上述代表性骨架指导新化合物的概念设计和合成。为此，列出一个化学反应物和反应产物的表，其中反应物的化学结构或者所得反应产物包含上述具有生物活性的代表性骨架、或其片段。选择超过4000种组合，合成测试用的相应反应产物。在筛选测定中测试这些化合物，在物质组成意义上可识别到两类新化合物，其中许多代表性化合物的IC50s在100至500nM范围内。
实施例3 新型选择性离子通道阻断剂的理性识别本发明研究了一种相信在神经退化中具有一定作用的离子通道的测定，而现有文献从未有叙述过离子通道的抑制剂。按照本发明的方法使测定用的测试化合物组合在一起，对它们进行测试，并识别新的抑制剂。第一步是形成必要的结构数据，用于识别相关通道抑制剂的化学决定子。籍由在筛选测定中以5μM的浓度测试我们公司集合中的第一批3680种化合物，并且为表中的每个结构注释其抑制活性，可达到该步。以40％抑制作用的截留值作为分类的阈值，识别到36个结构具有活性，其余3644种化合物无活性。
第二步是识别36种抑制剂的化学结构所包含的生物活性化学决定子。为此，通过选用前述关联性评估(I)分析3680种已注解的结构，其中x表示含有相关化学决定子的活性化学结构的数目，y表示含有所述同一种化学决定子的化学结构的总数，z表示含有N个分子的集合内活性化学结构的总数(即z＝36)，而N表示要分析的化学结构的总数(即N＝3680)。然后将关联性评估(I)转化为计分函数(V)，本领域技术人员将其当作积矩相关系数，该函数反映两个未在所述公式(V)中示出的对分变量之间共享方差程度。
在此情形下，除了x、y、z或N外计分函数不再使用其他变量，虽然对本领域技术人员显而易见的是，计分函数(V)也可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(I)和(V)表示的那些，特别是由于在y、(N-y)、z和(N-z)的研究设计和/或分布的不同变化范围内计分函数(V)并非不变。在本发明的意义上，这些替换方法最恰当的是包含变量x、y、z和N中二个、三个或四个的各种组合。
下图所示为以后分析和选择所用的化学决定子的例子。用包括A组所示5种决定子在内的化学决定子集测试全部3680个注解了抑制通道活性的结构是否存在生物活性子结构。在这5个结构中，决定子4的分值最高，表示它最有可能是抑制通道活性的基础。因此，反复计算含有决定子4的结构，而B组所示的化学结构确定为含有36种抑制剂的集合内所包含的其中一个最大统计学意义的决定子，供以后选择用。符号A表示碳、氮、氧或硫；B表示氢或OH。
通过用公式(V)计算一系列化学决定子的分值，以及保留产生最大非零正数的结构，对3680个已注解的结构进行分析。A组所示为该方法所用的一些化学决定子的例子以及它们计算出来的分值。在这些决定子中，决定子4的分值最高，估计仅基于可能性它包含在通道阻断结构子集内的概率少于1/100(p＜0.01)。所以，将决定子4看作是表示36种抑制剂中比例最大的生物活性基团，用公式(V)反复计算以确定是否可识别到更大的化学决定子。B组所示为在这些附加计算中发现的最大统计学意义的化学决定子。将该结构选作代表性骨架，或者作为以后选择和合成化合物的药理活性“指纹”。
第三步涉及用B组所示的代表性骨架作为模板虚拟筛选和选择化合物。为此，用为了该目的而计算的指纹及其片段在含有超过400,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得1760种化合物，如实施例1所述用同一个含有1280种随机选择的化合物的集合作为对照。
构成本方法最后阶段的第四和第五步平行进行。第四步包括在酶测定中测试所获得的化合物。根据代表性骨架在1760种分子中选取84种分子，其测试浓度为5μM时具有至少40％的抑制活性。在这些分子中，有8种分子的IC50s在亚微摩尔范围内，其中一种化合物命名为化合物C，其IC50是400nM。以下所示为这些抑制通道的化合物的两个例子，二者包含的药理活性“指纹”与B组所示的完全一致用本发明的方法选择这两种抑制通道的化合物进行测试。两种分子均显着抑制相关通道。两种化合物的化学结构含有用本发明的方法识别到的药理活性化学决定子，其中子结构用粗黑线表示，见上图B组。
在作对照的1280种随机选取的化合物中，总共有33种分子在筛选测定中具有至少40％的抑制活性。因此，基于B组所示的代表性指纹而汇编的化合物集输送活性分子的效率比随机选取的化合物集至少高1.8倍(p＜0.005)。基于B组所示的代表性指纹而汇编的化合物集输送活性分子的效率比公司化合集的第一批3680种化合物至少高4.9倍(p＜0.0001)。
在物质组成意义上及考虑到识别具有抑制通道活性的新分子，第五步是用B组所示的代表性骨架指导新化合物的概念设计和合成。为此，选择上述120种药理活性抑制剂中的其中一种来跟踪，并且用先前组合的阳性和阴性筛选结果对它进行化学修饰，作为结构-活生信息源。这种做法导致一类从未被叙述过的新型离子通道阻断剂的合成及后续识别，在物质组成意义上其中有许多代表性阻断剂的IC50s在100至500nM范围内。选择性测试表明化合物在其他30个药物目标中对相关通道具有选择性，而且在神经生长因子消除诱导的细胞凋亡模型中抑制细胞死亡。
实施例4 新型选择性蛋白酶抑制剂的理性识别本发明研制了一种相信在缺血性受损或损伤中具有一定作用的蛋白酶的测定。所述蛋白酶是一族密切相关的酶的成员，它本身是治疗性干扰的唯一相关目标。按照本发明的方法使测定用的测试化合物组合在一起，对它们进行测试，并识别新的酶抑制剂。第一步是形成必要的结构数据，用于识别酶抑制剂的化学决定子。在筛选测定中以3μM的浓度测试含有1680种化合物的集合，每个结构都注解抑制活性，这样就可以形成必要的结构数据。以40％抑制作用的截留值作为分类的阈值，识别到17个结构具有活性，其余1633种化合物无活性。
第二步是识别17种抑制剂结构内所包含的生物活性化学决定子。为此，通过选用以下式(VI)表示的关联性混合评估分析1680种已注解的结构，其中x表示含有相关化学决定子的活性化学结构的数目，y表示含有所述同一种化学决定子的化学结构的总数，z表示含有N个分子的集合内活性化学结构的总数(即z＝17)，而N表示要分析的化学结构的总数(即N＝1680)。在此情形下，直接将关联性评估(VI)用作计分函数，识别17种相关抑制剂所包含的生物活性化学决定子。
(VI)---xz-yN]]>在本文中，除了x、y、z或N外计分函数不再使用其他变量，虽然对本领域技术人员显而易见的是，计分函数(V)也可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。
本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(VI)表示的那些，特别是由于直接使用该关联性评估只能对给定化学决定子可能是生物活性的基础作相对估计。在本发明的意义上，这些替换方法最恰当的是包含变量x、y、z和N中二个、三个或四个的各种组合。
通过用公式(VI)计算一系列化学决定子的分值，保留产生最大正数的结构，对1680种已注解的结构进行分析。下图A组所示为该方法所用的一些化学决定子的例子以及它们计算的分值。在这些决定子中，决定子7和8的分值最高，故将它们看作是表示17种抑制剂中大部分抑制剂所包含的一个或多个生物活性基团。再用公式(VI)反复计算以确定是否可识别到更大的化学决定子，用含有这17个结构的集合情况就不是这样，使决定子7和8合并在一起，形成代表性骨架，或者如B组所示用作以后选择和合成化合物的药理活性“指纹”。
上述两组图所示为以后分析和选择所用的化学决定子的例子。用包括A组示出的4种决定子在内的化学决定子集测试全部1680个已注解了蛋白酶抑制活性的结构是否存在生物活性子结构。在这4个结构中，决定子7和8的分值最高，表示它们最有可能是蛋白酶抑制活性的基础。与之相比，由简单苯环组成的决定子的分值为0.02。由于用决定子7和8反复计算时识别不到分值更高的结构，故将这两个结构合成如B组所示的化学基序，用作以后虚拟筛选和选择化合物的药理活性“指纹”。符号A表示碳或硫；B表示氢、碳、氮、氧或任何一种卤素原子。
第三步涉及用B组所述的代表性骨架作为模板虚拟筛选和选择化合物。为此，用为了该目的而计算的指纹及其片段在含有超过150,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得589种化合物。
本方法的第四和最后一步包括在酶测定中测试所获得的化合物。基于代表性骨架在589种化合物中选取52种分子，其测试浓度为3μM时具有至少40％的抑制活性。在这些分子中，有12种化合物的IC50s在亚微摩尔范围内，其中一种化合物命名为化合物D，其IC50是65nM。以下所示为这些蛋白酶抑制分子的六个例子，全部均含有至少一次如B组所示的药理活性“指纹”的出现率
用本发明的方法选取这六种抑制蛋白酶的化合物进行测试。每种分子均显着抑制相关蛋白质，它们的IC50s在0.15至15μM范围内。六种化合物中每一种结构都含有用本发明的方法识别到的药理活性化学决定子，其中子结构用粗黑线表示，见上图B组。这些化合物中有一些实际上含有超过一种指纹变异型，例如上图右下角所示的四环结构。
所以，基于B组所示的代表性指纹而汇编的化合物集输送活性分子的效率比初始测试的含有1680种化合物的集合至少高8.7倍(p＜0.0001)。此外，还发现52种被理性识别的化合物对相关蛋白酶具有选择性，就此而言，当测试浓度为5μM时大部分化合物(＞90％)对属于同一个酶家族的相关蛋白酶没有抑制活性，在相同条件测试时对其他12种药物目标测试也发现没有抑制活性。
实施例5 新型选择性磷酸酶抑制剂的理性识别本发明研制了一种相信在受体致敏和调节中具有一定作用的磷酸酶的测定。按照本发明的方法使测定用的测试化合物组合在一起，对它们进行测试，并识别新的酶抑制剂。第一步是形成必要的结构数据，用于识别酶抑制剂的化学决定子。筛选测定中以3μM的浓度测试含有12160种化合物的集合，使每个结构注解抑制活性，这样就可以形成必要的结构数据。以50％抑制作用的截留值作为分类的阈值，识别到15个结构具有活性，其余12145种化合物无活性。
第二步是识别15种抑制剂结构内所包含的生物活性化学决定子。为此，通过选用关联性混合评估(VII)分析12160种已注解的结构，其中x表示含有相关化学决定子的活性化学结构的数目，y表示含有所述同一种化学决定子的化学结构的总数，z表示含有N个分子的集合内活性化学结构的总数(即z＝15)，而N表示要分析的化学结构的总数(即N＝12145)。
(VII) (x/z)-(z-x)/(N-z)再将关联性评估(VII)转化为计分函数(VIII)，本领域技术人员将会认识到该计分函数(VIII)与危险相对比(risk odds ratio)的估算有关，这种估算是用表示两个对分变量之间存在的共享方差程度的回归线斜率所作出的，它还可以修正为包括考虑中的每个化学决定子的分子量(MW)。
(VIII) Score＝MW.e[(x/z)-(z-x)/(N-z)]在本文中，除了x、y、z或N外计分函数不再使用其他变量，虽然对本领域技术人员显而易见的是，公式(VIII)也可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(VIII)表示的那些，特别是由于在一些情形下斜率之比不足以在两个密切相关的化学决定子之间作出辨别。在本发明的意义上，这些计分函数最恰当的是包含变量x、y、z和N中二个、三个或四个的各种组合。
通过用公式(VIII)计算一系列化学决定子的分值，保留产生最大正数的结构，对12160种已注解的结构进行分析。这种分析导致识别到3种不同的化学决定子，其分子量从120至220Da，仅基于可能性其包含在活性化学结构子集内的概率少于1/10(p＜0.1)。因此，这3种化学决定子被认为是表示在筛选中被识别的15种酶抑制剂的一个或多个生物活性基团，组成第四个表。接着用公式(VIII)反复计算，确定是否可识别由该组合或者8个片段中任何一个的进一步扩展得到的较大化学决定子。在这些附加计算中发现的最大统计学意义的化学决定子的分子量是255Da，它被选作代表性骨架，或者作为以后选择化合物的药理活性“指纹”。
第三步涉及用上述代表性骨架作为模板虚拟筛选和选择化合物。为此，用为了该目的而计算的指纹及其片段在含有超过800,000种市售和专用化合物的数据库进行子结构搜索。基于这些搜索总共选取1242种化合物，如实施例1所述用同一个含有1280种随机选择的化合物的集合作为对照。
本方法的第四和最后一步包括在酶测定中测试所获得的化合物。基于代表性骨架在1242种化合物中选取34种分子，其测试浓度为3μM时具有至少50％的抑制活性。在这些化合物中，有8种化合物的IC50s在亚微摩尔范围内，其中一种化合物命名为化合物E，其IC50是87nM(图14)。
图14所示为化合物E对磷酸酶依赖性蛋白质脱磷酸化的影响。在化合物E存在下使相关磷酸酶与磷酸化肽基质一起培养，培养期间增加化合物E的浓度。以孔雀绿测量游离磷酸盐向反应培养基的释放来测定基质脱磷酸化。化合物E显着抑制磷酸酶依赖性脱磷酸化，其IC50是87nM。
在作对照的1280种随机选取的化合物中，只有2种在筛选测定中具有抑制活性，其中最有功效的化合物的IC50只有1.8μM。所以，基于代表性指纹汇编的化合物集输送活性分子的效率比随机选取的化合物集至少高17.5倍(p＜0.0005)，比公司化合物集合的第一批12160种化合物高22.3倍(p＜0.00001)。
最后，本发明发现化合物E代表一类从未被报导过的新型磷酸酶抑制剂，当用结构和功能相关的替换磷酸酶在选择性测定中测试时，它对相关目标的选择性大20倍。
实施例6 增加化学系列的功效本发明也可用于增加一个化学系列的功效。为了举例说明，在蛋白酶测定中以3μM的浓度测试含1251种化合物的集合，其中25种化合物具有至少40％抑制活性。如实施例1所述那样对这些结构进行分析，结果识别到许多化学决定子，其中一个决定子仅基于可能性其出现在25种蛋白酶抑制剂的其中7种抑制剂之间的的概率少于1/10,000(p＜0.0001)。不幸的是，含有该决定子的7种化合物只有中等抑制活性(IC50平均值＝3.4μM±1.34μM，n＝7)，使它们失去作化学跟踪的吸引力。结果是，所述决定子被看作是表示相关抑制剂的生物活性基团，直接用作代表性骨架，或者药物活性“指纹”，用于选择其他化合物。
为此，在含有超过100,000种市售化合物的数据库筛选相关决定子，并选择142种分子作其他测试。在这些142种化合物中，有11种的抑制活性在亚微摩尔范围内，IC50的平均值是0.48μM±0.09μM(n＝11，IC50的平均值远远少于前一个数值，p＜0.05)。所以，本发明的方法可以显着增加一个化学系列的药理功效。
实施例7 增加化学系列的选择性本发明也可用于增加一个化学系列的选择性。为了举例说明，在一种称为激酶1的激酶测定中以3μM的浓度测试含3360种化合物的集合，其中22种化合物至少有40％抑制活性。如实施例2所述那样对这些结构进行分析，结果识别到许多化学决定子，其中一个命名为“决定子10”，仅基于可能性其出现在22种激酶抑制剂的其中3种抑制剂之间的的概率少于1/20(p＜0.05)。不幸的是，在另外4种激酶上进行的选择性测定发现，决定子10也是另一种激酶称为激酶2的抑制剂的重要组成部分，这表明激酶1的选择性抑制剂不能只基于决定子10进行研究。事实上，含有决定子10的3种化合物对这两种激酶是等效的，对激酶1和2的IC50平均值分别是7.24μM±3.81μM(n＝3)，以及21.5μM±9.29μM(n＝3)，这表示对激酶1的选择性比率只有2.98。
考虑到这一点，使已对激酶1测试过的3360种化合物以3μM的浓度再对激酶2进行测试，其中92种化合物至少有40％抑制活性。接着使含有3360个结构的表注解为对激酶1和2具有活性，按照本发明的方法选用关联性评估(III)进行分析，将它转化为计分函数(IX)，其中x1表示对含有相关化学决定子的激酶1具有活性的化学结构的数目，x2表示对含有相关化学决定子的激酶2具有活性的化学结构的数目，y表示含有化学决定子的化学结构的总数，z1表示对含有N个分子的集合内对激酶1具有活性的化学结构总数(即z1＝22)，z2表示对含有N个分子的集合内对激酶2具有活性的化学结构总数(即z＝92)，而N表示要分析的化学结构的总数(即N＝3360) 本领域技术人员将把计分函数(IX)当作一种方式来比较相对危险(relativerisk)，使人们可以识别化学决定子，该决定子最有可能对其他激酶中的某一种激酶具有选择性。在本文中，对本领域技术人员显而易见的是，公式(IX)可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。最后，本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(III)和(IX)表示的那些。例如，关联性评估(I)可用在计分函数(II)中，激酶1活性所得的分值可减去激酶2活性所得的分值，或者相反地，可把激酶1活性所得的分值除以激酶2活性所得的分值。在本发明的意义上，还可以有其他许多方法，这些分方法最恰当的是采用包含变量x、y、z和N中二个、三个或四个的各种组合的函数。
用公式(IX)计算一系列化学决定子的分值，从而可识别到许多对激酶1具有选择性的化学决定子，其中一个决定子命名为“决定子11”，由以另一个化学基序取代的决定子10组成。结果是决定子11被认为是表示激酶1选择性抑制剂的一个药理活性基团，或者用作代表性骨架或者作为以后选择化合物的药理活性“指纹”。为此，用决定子11及其片段在含有超过400,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得498种化合物，经两个测定测试后，产生3种含有决定子10的抑制剂，其在激酶1和2测定中的IC50s平均值分别为0.94μM±0.52μM(n＝3)和31.6μM±4.41μM(n＝3)。这一结果表示该系列对激酶1比对激酶2的选择性比率高11倍，证明本发明的方法可以增加相关化学系列的药理选择性。
实施例8 具有多药理效应的系列的理性识别本发明研制了一种相信在免疫反应中具有一定作用的配体控制的离子通道的功能测定。按照本发明的方法使测定用的测试化合物集组合在一起，对它们进行测试，并识别新的离子通道阻断剂。一般认为研究中的通道属于一族渗过钠离子的目标，由嘌呤核苷酸激活，并被一些钠通道阻断剂抑制。在这样的情形下，由于增加了快速识别配体控制的相关离子通道抑制剂的可能性，所以决定识别同时具有模拟嘌呤核苷酸的双倍能力和抑制钠通道的药理指纹。
本方法的第一步包括参照现有文献汇编两个化学结构表。第一个表包含79个被记载为钠通道抑制剂的结构。第二个表包含2367个嘌呤-核苷酸结合蛋白抑制剂的结构(具体参见实施例2)。本方法的第二步是识别两个化学结构表同时所包含的生物活性化学决定子。为此，每个表补充100,000种以上对相关替代目标没有影响的分子，如实施例1所述那样通过选用关联性减法评估(I)进行分析，将它转化为计分函数(X)，其中x1表示在钠通道上具有活性并含有相关化学决定子的化学结构的数目，x2表示在嘌呤-核苷酸结合蛋白上具有活性并含有所述同一个化学决定子的化学结构的数目，y1表示在被注解为具有钠通道阻断效应的结构表内含有化学决定子的结构总数，y2表示在被注解为具有嘌呤-核苷酸结合蛋白抑制作用的结构表内含有化学决定子的结构总数，z1表示在含有N1个分子的集合内抑制钠通道的结构总数(即z1＝79)，z2表示在含有N2个分子的集合内对嘌呤-核苷酸结合蛋白产生作用的化学结构总数(即z2＝2367)，而N1和N2分别表示被注解的结构表内要分析的化学结构总数。
本领域技术人员将把计分函数(X)当作一种方式来结合两个不同关联测试，使人们可以识别最有可能同时对钠通道和嘌呤-核苷酸结合蛋白产生作用的化学决定子。在本文中，对本领域技术人员显而易见的是，计分函数(X)也可被修正为包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。本领域技术人员还将认识到其他关联性评估和/或计分函数可用于同样目的，代替那些公式(I)和(X)表示的那些，特别是由于计分函数(X)不会考虑两个数据集比例之间存在的不同范围，而始终要求这些比例是可比的，而且，要求N1与N2可比，二者的数值要大于20。例如，人们可能用基于比例差加权平均值的计分函数加权样本尺寸显着不同的数据集的结果(见实施例21)。另外，人们也可能想计算包括第三、或第四、或第i种药理性质，在这样的情况下，很明显，公式(X)可扩展至它更为通用的形式(XI)，式中d表示要分析的化合物表的数目，所得的分值可直接参考标准正确分布表，以确定发现一个或多个化学决定子的可能性，而这些决定子是考虑中的全部药理性质的基础。在本发明的意义上，还可以有其他许多方法，这些分方法最恰当的是采用包括变量x、y、z和N中二个、三个或四个的各种组合的计分函数。
通过用公式(X)计算一系列化学决定子的分值，保留产生的最大数值大于2的结构，以便分析已注解的两个结构表。这种分析导致识别到一种学决定子，仅基于可能性其出现在活性化学结构子集内的概率少于1/20(p＜0.05)。因此，这个命名为“决定子12”的化学决定子被认为是表示钠通道和嘌呤-核苷酸结合蛋白抑制剂中一个或多个具有生物活性的基团，直接用作代表性骨架，或者作为以后选择化合物的药理活性“指纹”。
本方法的第三步涉及用代表性骨架作为模板进行虚拟筛选。为此，以决定子12及其片段在含有超过250,000种市售化合物的数据库进行子结构搜索。基于这些搜索总共获得800种化合物，如实施例1所述用同一个含有1280种随机选择的化合物的集合作为对照。
本方法的第四和最后一步包括在离子通道测定中测试所获得的化合物。根据决定子12在800种分子中选取23种化合物，其测试浓度为3μM时具有至少40％的抑制活性。在这些化合物中，有3种化合物的IC50s在亚微摩尔范围，其中一种化合物命名为化合物F，其IC50是145nM±56nM(n＝4)。在作对照测试的随机选择的1280种化合物，其中只有一种分子的抑制活性较显着，在较低微摩尔范围内，而它的化学结构实际上含有大部分决定子12。有趣的是，当用相信在免疫反应中具有一定作用的激酶测试同一个含有800种化合物的集合时，发现8种化合物在测试浓度为5μM时具有至少40％抑制活性，化合物F的IC50是1.2μM，另一种化合物命名为化合物G，其IC50是137nM±48nM(n＝4)。还发现，化合物F、G和许多结构含有决定子12的密切相关的分子也都抑制钠通道，通常1μM时的抑制作用是50-100％。综上所述，这些结果证实了本发明的方法可以选择和/或设计具有多药理性质的化合物，它们与研制用于治疗多因素病态，例如但不限于炎症，的药物有关。很明显，本发明的方法同样可用于将新的药理性质引入到原来缺乏这些性质的化学系列。
实施例9 生物活性化学决定子的汇编表在本发明的一优选实施例中，用该方法可编制生物活性化学决定子的表，该表转而可用作进行理性药物设计用的参考数据库，例如医药化学所用的计算机控制的决策程序。为了举例说明，参照科学文献，把含有25种药理活性分子的表组合在一起，每个表包括具有一给定药理性质的化合物的化学结构，例如，σ受体结合、多巴胺D2受体激动效应以及雌激素受体拮抗效应。然后按照本发明的方法通过选用如实施例2所述的关联性评估(III)对每个表进行分析，将它转化为函数(IV)，用该函数计算要分析的一个或多个表所包含的各种化学决定子。这些计算最终识别到大量具有药理活性的化学决定子，下表列出其中3个决定子，它们为所得矩阵的一部分这个表提供了药理活性化学决定子的参考表。把含有25个结构的表组合在一起，而所述结构表含有具有所述25种不同药理性质之一的分子，按照本发明的方法用关联性评估(III)和计分函数(IV)对这些结构表进行分析。这25种性质包括结合σ受体(σ配体)的能力、多巴胺D2受体激动效应(D2激动剂)以及雌激素受体拮抗效应(雌激素拮抗剂)。上表所示为得到的26列矩阵的小部分。大于1的数值表示给定化学决定子在具有同一药理性质的分子集内偶然出现的概率少于1/20，这表明该决定子最有可能是所述同一种性质的分子基础。上表构成生物活性决定子或“指纹”的贮藏库，在药物发现和开发中可作为制订决策的参考表。
下面对所得到的表进行说明。化学结构含有决定子13的化合物具有多巴胺D2受体激动剂性质比具有σ受体结合或雌激素受体拮抗剂性质的可能性更大，即是8.12＞1.85＞0.05。相反，决定子13是构建潜在的多巴胺D2受体激动剂集合的优选决定子，是8.12＞2.93＞0.00。同理，化学结构含有决定子14的化合物具有σ受体配体比具有多巴胺受体激动剂或雌激素受体拮抗剂的可能性更大，即是2.4＞0.00＝0.00。而决定子14是汇编σ受体配体集合的优选决定子，是2.40＞1.85＞0.91。最后，化学结构含有决定子15的化合物最有可能具有雌激素受体抑制性质，即是28.17＞2.93＞0.91。另外，决定子15是汇编潜在的雌激素受体拮抗剂集合的优选指纹，是28.17＞0.05＞0.00。
对本领域技术人员显而易见的是，可用其他关联性评估和/或计分函数构建这样一些表，代替那些公式(III)和(IV)表示的关联性评估和/或计分函数。本领域技术人员也将认识到所用的计分函数可包括如上所述其他与分子材料、生物、化学和/或物化性质有关的变量，但它们不限于实施例1所引用的变量。本领域技术人员还将认识到计分函数或计分过程也可被修正为包括加权或归一化步骤，以使各个分值相互之间更容易作出比较，上表就是这样被修正过，构建该表时用了3个尺寸相近的样本，但其他数据集不一定要作这样的修正。最后，显然用同一种方法可以汇编在发现过程中用作计算其他相关性质的分值的参考结构表，所述性质例如但不限于，普通治疗用途、毒性、吸收、分布、新阵代谢和/或排泄。
实施例10 预测分子的第二药理作用本发明也可用于预测分子的第二作用。为了举例说明，如实施例3所示识别了一类新型离子通道阻断剂。如前对该同一通道的其他抑制剂所述那样，新的化学系列抑制剂的基本化学结构包含实施例3的B组所示的化学决定子，特别是实施例3的A组所示的决定子5的形式。将决定子5与上表包含的决定子作比较，具体地说，由于决定子5的化学结构与决定子14的结构完全一样，故可得出相关抑制剂与σ受体结合的可能性非常高。所以，在σ1和σ2受体结合测定中测试含有决定子5的通道阻断剂，发现它们对这两个位点的亲和力是亚微摩尔水平。因此，这些结果证实了用本发明的方法计算的分值可以预测一个化学系列的第二作用，在医药化学的系列渐进上极其有用。
实施例11 分子毒性作用的鉴定及预测由以上实施例清楚可见，本发明的方法还可用于识别杀虫、除草剂、杀虫剂等所包含的有毒化学决定子，这只需分析已注解的结构表，只不过用毒理性质代替药理性质。在本文中，本发明可直接用于识别功效、选择性更高和/或作用更广的有毒化学系列，所述系列例如用在农业化学项目以保护庄稼。
此外，可用本发明汇编有毒化学决定子的参考表或数据库，方式与实施例9所述一样。然后，用这些表估算化学系列具有给定毒性效应的可能性，用在例如筛选食物添加剂和环境污染物等方面。
为了举例说明在药物研究设定中预测毒性效应的可能性，以相关细胞磷酸酶测试4480种化合物对炎症的治疗情况。在测定中总共有25种化合物在测试浓度为10μM时具有至少40％抑制活性，所有化合物的IC50s在较低微摩尔范围内。按照本发明的方法对结果进行分析，结果识别到2种最有可能是药理活性的基础、分子截然不同的化学决定子，它们被命名为决定子16和17。由于这两个决定子存在于等效分子中，而且二者都能够产生同样均适合于化学追踪的化学系列，所以决定根据预测的毒性副作用在二者之间作出选择。
为此，使决定子16和17与毒理数据库所包含的结构进行比较，发现结构含有决定子16的分子具有细胞毒性的可能性远远高于只含有决定子17的化合物。这表示由于药理指纹固有的细胞毒性而使含有决定子16的磷酸酶抑制剂失去发展的兴趣。这个假设已经得到实验的证实，即使培养细胞与浓度为1μM的两类抑制剂接触，用标准MTT检测技术测量细胞存活性，结果发现，含有决定子16的所有化合物在施加24小时内诱导细胞死亡，而大部分含有决定子17的化合物则不会这样。所以，这些结果确实证明本发明的方法可以识别或预测在给定设定中最有可能具有毒性性质的化学系列。很明显，在本文中用例如诱变数据(Ames测试)、P450同工酶抑制数据、或者用其他任何一种有关毒性测试产生的数据均可进行同样的计算。
实施例12 受体配体中具有生物活性的基团的识别选择一种细胞表面受体作为控制一些内分泌障碍的相关目标。该受体由垂体产生的九肽激素内源性激活。参照科学文献汇编作为所述同一种受体的化学结构表。再按照本发明的方法分析这个结构表，其中使用关联性评估、计分函数(IV)以及一系列化学决定子，这些决定子由20个氨基酸(甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、丝氨酸、苏氨酸、酪氨酸、苯丙氨酸、色氨酸、赖氨酸、精氨酸、组氨酸、天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺、半胱氨酸和蛋氨酸)片段组成并以肽主链结构(NH-CH-CO-)3片段互补。下面是其中一些决定子的例子
这些是分析用的氨基酸和衍生自肽主链的化学决定子的例子。参照科学文献汇编受体配体表，按照本发明的方法用关联性评估(III)、计分函数(IV)以及一系列由20个氨基酸的各种片段组成并以肽主链结构(NH-CH-CO-)3片段互补的化学决定子分析这个结构表。上面两排所示为一些自色氨酸衍生的决定子的例子。这些决定子或者是精确片段(如决定子18、19、20、21和26)、精确片段组合(如决定子22)、非精确片段(如决定子23、24和25)、或者是精确与不精确片段的组合(未示出)。下面两排是自肽主链结构(NH-CH-CO-)3衍生的决定子的例子，表示精确片段(决定子29、31、32)和非精确片段(决定子27、28、30、33)。符号A表示碳或硫；B表示碳或氮；E表示碳、氮、氧或硫。
用公式(IV)计算这些片段的分值，以此识别许多分值大于1的化学决定子，这表示相应结构仅基于可能性其包含在活性化学结构子集内的概率少于1/20(p＜0.05)。以下所示为这些决定子的例子及其各自分值这些是在第一轮分析中识别到的高分值化学决定子的例子。按照本发明的方法分析受体配体集，即用计分函数(IV)计算先前所示的化学决定子以及其他许多化学决定子的分值。大于1的数值表示该决定子仅基于可能性其出现在受体配体子集内的概率少于1/20。上图所示为在本方法中识别到的一些分值较高的化学决定子。
因此，将这些决定子看作表示肽激素主序列内所包含的一个或多个氨基酸，它们组合成第二个表。再用公式(IV)反复计算，以识别这些新决定子中分值最高的组合，其中有许多组合的分值比10大。排名最高的化学决定子的结构命名为决定子42，再将它与800种由20个氨基酸各种组合组成的二肽结构作比较，确定只有一个称为A1-A2的二肽序列的整个结构包含决定子42。这个结果表示相关激素最可能在其主结构内的某些位置包括A1-A2序列，而且，两个氨基酸中至少有一个在雌激素配体与其受体的结合中发挥重要作用。经过激素序列的确认发现它确实一如所料包括A1-A2序列，计算到仅基于可能性其出现的概率只有0.019。有趣的是，其他实验显示在A1-A2序列的A2位置上包含突变(例如A1-A3或A1-A4代替A1-A2，其中A1、A2、A3和A4是不同的氨基酸)的肽类对受体的亲和力极低，表明两个预测的残基确实至少有一个构成一个支持相关激素的生物功能的重要基团。综上所述，这些结果证实了本发明的方法可以识别肽配体的生物活性基团，在关于例如peptidomimetic酶抑制剂和/或受体配体的理性设计的医药化学项目中是很有用的。
实施例13 蛋白质-蛋白质相互作用的预测本发明也可预测蛋白质-蛋白质相互作用的存在，方式类似于前一个实施例。为了举例说明，如实施例3所述那样进行离子通道筛选，导致识别到超过24种分子，其测试浓度为5μM时具有至少40％抑制活性。将这些抑制剂的化学决定子组成一个表，如实施例12那样对该表进行分析。这种分析导致识别到一系列高分值的氨基酸和肽主链衍生的化学决定子，对它们作进一步分析后，发现相关通道最有可能与确切含有称为A5-A6的某一二肽序列的抑制肽或蛋白质相互作用。有趣的是，这些抑制蛋白质在文献中已有叙述，全部都含有一个具有20个氨基酸的“通道抑制”区，该区正好包含预测的A5-A6二肽序列。可以确定，任何一个20个氨基酸的序列基于随机可能性含有两个给定残基的给定顺序排列的概率只有0.046，可以估计基于在本实施例和前一个实施例中的可能性，正确预测出现在两个不相关蛋白质的两个不同二肽序列存在的概率少于1/1097。然而，两个实施例都作出了正确预测，这证实了本发明可以识别和/或预测某些类别的蛋白质-蛋白质相互作用的存在。本发明的做法很简单，只要在药理活性结构子集内识别到最大可能的化学决定子所包含的氨基酸序列，然后在序列数据库中搜索含有相关氨基酸序列的蛋白质。下面的实施例14会对这种方法进行叙述。在本文中，对本领域技术人员显而易见的是，这种方法不只限于二肽序列的识别，根据要分析的药理活性化合物的结构，还可检测三肽甚至四肽序列。很明显，非肽配体也可采用类似方法，也就是说，这种方法适合检测例如碳水化合物序列(即糖)、核苷酸等。
实施例14 孤独配体-受体对的识别本发明还可用于识别孤独配体和/或孤独配体-受体对。这种方法先要汇编一个对相关蛋白质具有给定效应(通常是结合)、但在研究时还未知道配体具有这种效应的化学结构表。有多种方式可以产生这些信息，例如但不限于，进行核磁共振研究、通过圆二色散测量构象变化、通过表面等离子体共振测量蛋白质-配体相互作用、或者如果是孤独配体，用相关受体由组成激活的突变体进行测定。
为了说明这个概念，我们假设对孤独配体进行上述一类实验，形成的结构表示如下这是分析生物活性化学决定子的假想结构表。用上述氨基酸和衍生自肽主链的化学决定子表，按照本发明实施例2所述的方法分析以上所示的9个结构。
如实施例12所述的一些结构的分析能够识别到许多分值大于1的氨基酸和衍生自肽主链的化学决定子。以下所示为这些决定子的例子及其相应分值这些是在第一轮分析中识别到的高分值化学决定子的例子。按照本发明的方法对假想的受体配体集进行分析，即用计分函数(IV)计算实施例12第一组所示的化学决定子以及其他许多化学决定子的分值。比1大的分值表示仅基于可能性，该决定子出现在配体子集内的概率少于1/20。以上所示为在本方法中识别到的两个分值较高的化学决定子。
从这些实施例清楚可见，决定子43和44只能包含在氨基酸苯丙氨酸和酪氨酸的化学结构中。由此推断，与孤独受体相互作用的肽类可能在它们的序列中包含酪氨酸或苯丙氨酸残基，而这些残基可能在配体的结合和/或这些肽类使受体激活的过程中起着重要作用。接着，如果对高分值决定子43和44再进行分析，就可以确定与其他氨基酸片段的组合是否不会产生更高分值的结构，也可以识别如下图A组所示的片段，如决定子45等。
上述两组图所示为在第二轮分析中识别到的高分值化学决定子。按照本发明的方法对那些先前所述的化学决定子作进一步分析，以确定与其他氨基酸片段的组合是否不会产生更高分值的结构。其中一个结构命名为决定子45(A组)，其分值大于40。有趣的是，决定子45的整个结构包含在二肽序列Tyr-Gly的结构中(B组)，因而可以推断相关孤独目标的内源配体在其主结构内含有Tyr-Gly二肽序列。
显然，由于决定子45的整个结构包含在二肽序列酪氨酸-甘氨酸(Tyr-Gly)的结构内，故可以推断我们寻找的孤独配体最有可能在其主结构的某个位置含有Tyr-Gly序列。根据这个信息，筛选氨基酸序列数据库，以识别含有预测Tyr-Gly序列的已知和/或孤独配体，在选择和表达之后，在初始生物化学筛选测定中测试这些配体。另外，用化学决定子45可直接汇编潜在的Tyr-Gly类似物的化合物集合。
最后，需要指出的是，本实施例所用的化学结构实际上是取自文献的阿片受体激动剂，天然存在的阿片受体激动剂强啡肽A、β-内啡肽、亮啡肽和甲啡肽在其主结构内均含有预测的Tyr-Gly序列。由于发现酪氨酸是阿片激动剂活性所绝对需要的，所以本实施例也证实了本发明能够识别受体配体的生物活性基团。业已发现，用另外一种使用变量x、y、z和N的算法，例如Fisher’s精确检验，可以使上述估计更加准确。事实上，用一种对小样本尺寸的校正不足的方法分析了9个结构，结果显示决定子45的分值为41.96，该分值可能被稍微高估了。
实施例15 药物目标内源调节剂的识别对本领域技术人员显而易见的是，本发明也可用于识别药物目标内源调节剂。为了举例说明，本发明研制了一种相关离子通道在神经退化治疗中的功能测定。如实施例2所述那样筛选化合物集合，分析所得抑制剂表是否存在生物活性化学决定子。这种分析导致识别到高分值化学决定子，它们被发现包含在由真核细胞内源产生的分子子集内。接着购买相应的化合物，在测定中测试，结果发现相关通道被亚微摩尔浓度的细胞磷脂特定亚类选择性地抑制，而最有趣的是，相关通道与之前经其他组通过未知机理的神经元细胞凋亡相关联。综上所述，这些结果证实了本发明可以识别药物目标内源调节剂。
实施例16 假阳性实验结果的鉴定本发明研制了一种相信在免疫反应具有一定作用的蛋白激酶的酶测定。按照本发明的方法，特别是实施例2所述的方法使对目标筛选的化合物集组合在一起。然后，在测定中以5μM的浓度测试集合内的化合物，结果识别到35种具有至少40％抑制活性的分子。使公式(II)作简单变化，以改变后的公式作为计分函数分析这些化合物的结构，直接将相应的分值与统计表的分值作比较，可以估算仅基于可能性给定化学决定子出现在含有35种药理活性化合物的子集之间的概率。
以偶然出现的概率p＜0.05作为阈值，确定35种抑制剂中有14种最有可能代表假阳性结果。接着在测定中对这14种化合物再进行测试，证实了这样一个假设，这表明本发明可以鉴定假阳性实验结果。
实施例17 假阴性实验结果的鉴定通过进行类似实施例16所述的计算，本发明还可以鉴定假阴性实验结果。为了举例说明，如实施例16所述那样分析一系列磷酸酶抑制剂的化学结构是否存在药理活性化学决定子。用所得最高分值的化学决定子作为药理活性“指纹”，在化学结构表进行子结构搜索，而该化学结构表对应在测定中最初被测试的化合物。这样的搜索发现了许多含有一个或多个上述化学决定子、但在筛选测定中仍然被认为是阴性的分子。接着在测定中重新测试相应化合物，结果发现超过15％的化合物是假阴性的，其中一种化合物甚至具有亚微摩尔抑制活性。这些结果清楚显示本发明的方法可以鉴定假阴性实验结果。
实施例18 进行定量构型和构象分析在本发明的一改进实施例中，人们可以用包括变量x、y、z和N各种组合的算法定量分析构型和/或构象。为了举例说明这种可能性，由实施例4的结果可知，实施例4的B组所示的药理活性抑制蛋白酶的“指纹”既没有构型也没有构象的限定。事实上，对于羰基或磺酰基两个基团，从结构式不可能区别药理活性指纹的单键形式是反向还是顺向构象，或者此外，在所述同一个结构是双键形式的情况下，也不可能区别活性指纹的(E)还是(Z)构象。原因是实施例4所进行的计算是识别最有可能是蛋白酶抑制活性基础的化学决定子，而没有考虑这样一个决定子可能具有的构象和/或构型。考虑到很多药理活性结构都含有双键和/或环系统，其作用是通过减少它们旋转键的总数而在构象上限制化学决定子这样一个事实，可以用本发明确定给定化学决定子哪一种构象和/或构型最有可能具有药理活性。
为了举例说明，分析实施例4所示的6种(抑制蛋白酶)结构，即用计分函数(IV)计算一系列自实施例4的B组所示的结构衍生的构象和构型限定的化学决定子的分值。
这组图表示对抑制蛋白酶的化学决定子进行的定量构象/构型分析。按照本发明的方法用构象和构型限定的化学决定子表分析实施例4所示的6个结构。
图中所示的化学决定子46是其中一个最高分值的决定子，旁边是分值较低的化学决定子47，因此可推断双键形式指纹的(Z)构型更有可能是包含在相关蛋白酶抑制剂的化学结构内的优选排列。这个假设后来被另一个传送大量蛋白酶抑制剂的聚集型高通量筛选所证实，事实上，这些抑制剂的药理活性指纹限制在(Z)或“顺向”构型中，只有极少数不是这样。
综上所述，这些结果证实了本发明的方法可以识别化学决定子的生物活性构象和/或构型。最后还知道进行这样一些计算可用很多含有变量x、y、z和N各种组合的不同算法。需要指出的是，若计分函数包括其他变量，例如但不限于将化学结构的药理功效考虑在内的变量，还可以使本文以上所述的估计更加准确。
实施例19 进行相似性搜索由以上实施例可见，本发明的方法考虑的分子相似性概念与该术语普遍接受的定义明显不同。例如，实施例14假想表中的化合物是很不一样的，就此而言，还没有一种明确的方法可以用常规群集技术把这9种化合物列入单一化学类别。然而，我们在实施例14指出，这些化合物实际上是非常相似的，因为每一种化合物均含有至少出现一次的化学决定子，而所述决定子是氨基酸酪氨酸的代表性片段；参见下图这些是9种阿片受体激动剂结构所包含的氨基酸酪氨酸片段。以上所示的结构是不一样的，所以用常规群集技术很难将这9个结构列入单一化学类别。然而，在本发明的意义上它们又是非常相似的，因为它们都含有至少一个由氨基酸酪氨酸限定的化学决定子片段，这些片段以粗黑线表示。
所以，用本发明很容易就可以测量分子相似性和/或比较不同化合物集合之间可能存在的相似性。为了简要地说明这个概念，从化学结构表很容易挑选一种或多种参考分子，分析它们是否有某些化学决定子，识别后，用它们在一种或多种新分子中进行一次或多次子结构搜索，以确定这些新分子是否与第一批分子具有相似性。用前面实施例所述的计分函数计算相应化学决定子的分值，并根据例如它们可能含有的不同决定子的数目计算新化学结构的分值，就可以给测试分子赋值，该数值反映与参考化合物原始集的相似程度。这个方法由于可以使研究人员快速识别在本发明的意义上与药理活性参考化合物的相似性较高的化合物，因而在设计药物发现的聚集型化合物集合上显得很有用。
实施例20 分析化合物集合的多样性本发明也可用于分析化合物集合的多样性，方式类似上一个实施例。对本领域技术人员显而易见的是，用本文的化学决定子概念很容易就可以比较给定化合物集合与其他化合物集合。例如，按照本发明的方法分析相应的化学结构表，可以选择高通量筛选用的化合物集合，其中用化学结构参考集如Merck指数、Derwent、MDDR或Pharmaprojects数据库包含的化学结构作为“药物相似性”分子的参考集合。在此情形下，把结构基本上包括低分值化学决定子的分子看作“药物相似性”，这是因为所述同样的化学决定子在参考结构的比例较高。与之相反，将结构基本上包括高分值化学决定子的分子看作“药物不相似性”，这是因为同样的化学决定子在参考结构所占的比例较低。这个信息对发现实验的设计十分有用，因为可帮助研究人员从筛选的化合物集合识别应该包括或不应该包括的化学结构。显然，在本文中，有许多包括变量x、y、z和N各种组合的算法可以实现该目的。
实施例21 特殊算法很明显，前面实施例没有提供一个包括每种使用变量x、y、z和N各种组合的算法的完备表，作为离散子结构分析。对本领域技术人员显而易见的是，本文的计分函数(XII)、(XIII)和(XIV)可用于处理前面实施例存在的许多问题。事实上，对于某些情形，在该术语的统计学意义上用这些公式之一代替实施例明确提出的公式甚至更合适。不过，由于本发明主要用于识别最有可能是给定生物效应的基础的化学结构表所包含的化学决定子，所以我们主要关心的是化学决定子的相对分值及后来的排列顺序。然而，在下列情况下可以用到公式(XII)、(XIII)和(XIV)a)小样本集需要精确估算偶然出现的概率(见XII，式中s相应于变量x、(y-x)、(z-x)和(N-y-z+x)中最小的数值)；b)认为比例加权估算两个决定子的同时性贡献对用于实施例8较为合适(见XIII，式中d相应于单个的化学决定子的数目)；或者，c)当评估相互连接的两个化学决定子的同时性贡献时，估计次序效应是至关重要的(见XIV)。式中变量x、y、z和N的定义与前述的定义完全一样。
最后，对本领域技术人员显而易见的是，在设计成识别生物活性化学决定子但在前面实施例没有明确叙述的计分函数和/或算法中使用一些变量在数学上相当于使用变量x、y、z和N的各种组合。为了说明这一点，使用变量q的计分函数相当于使用x和y，这是因为q＝y-x，q定义为表示化学结构含有给定化学决定子的无活性的分子数。同理，使用变量r的计分函数在代数上相当于使用变量x和z，因为很容易就看出r＝z-x，r定义为表示不包含给定化学决定子的活性化合物的总数。另外，使用变量s的计分函数在相当于使用变量x、y、z和N，这是因为s＝N-y-z+x，s定义为表示不包含给定化学决定子的无活性的化合物的总数。最后，使用变量t和u的算法相当于使用变量N、y和/或z，因为很容易就看出t＝N-y和u＝N-z，t和u分别定义为表示结构不包含给定决定子的分子总数(t)和无活性的分子总数(u)。
实施例22 绘制相对贡献图本发明也可以构建相对贡献图。这些图以曲线表示化学结构，其中各种原子、键、片段和/或子结构对给定生物结果的相对贡献以前面实施例所述的方法计算出来的分值表示。在本方法的一优选实施例中，所用的概率分值例如是用公式(XII)计算的分值，式中P(A)表示基于随机性给定化学决定子包含在生物活性结构子集内的概率，它是以使用变量x、y、z和N各种组合的公式按前述方法计算的。
(XII) 分值＝[1-P(A)]·100％
显然，本文有很多关联性评估和/或计分函数可以估算P(A)。下面详细讨论相对贡献图的两个例子。下图所示为相关分子及一系列包括所述同一个分子片段的化学决定子，用公式(XII)和修正过的关联性评估(I)计算它们的分值，确定P(A)。
图15以曲线形式表示同一信息，该曲线是以决定子对其各自分值绘制的。
在本文中，同一信息显然可以用概率等值线图表示，如下图所示
总而言之，这些图形对于设计化合物集合非常有用，因为它们可帮助研究人员基于在给定测定中成功机率的数学估算而选择化合物，减低了依靠分子多样性的概念而识别新型生物活性化学系列的需要。它们与医药化学也有关系，因为上图清楚显示可以对分子的哪一个基团进行合理修饰，而丧失药理活性的危险最小。同样，这些曲线也提醒毒理学者有毒化合物中哪一个基团需要修饰，以消除不希望的效应。
为了绘制上图和图15所示的相对贡献图，按本发明的方法以使用变量x、y、z和N的计分函数计算对应生物活性分子片段的化学决定子的分值，直接估算偶然出现在活性分子集内的概率(P(A))。用计分函数(XII)使每个决定子得到一个概率分值，其反映相对可能性，即相应的化学结构是相关生物活性基础，使相应P(A)值转化。这些分值可表示在图15上，图15以曲线表示各个化学决定子的分值。化学决定子54对应该系列的相对最大值。或者，这些分值也可表示在上图中，上图是概率等值线图，表示相关化学结构哪一个片段或区段最有可能带来生物活性(决定子54包含在被95％等值线限定的区域内)。图11所示为另一种表示分值的方式。
实施例23 计分函数等价前面实施例所用的计分函数都可以识别最有可能是给定生物、药理和/或毒理效应基础的化学决定子。对本领域技术人员显而易见的是，一些关联性评估和/或计分函数最适合用于只解决某些类型的问题，当按照本发明所述的方法使用时，每个公式都可以识别同一个最高排名的化学决定子，该决定子最有可能是给定生物效应的基础。所以，在离散子结构分析的意义上，前面实施例表示的公式在功能上是等价的。
要证明这一点，用如下所示含有变量x、y、z和N各种组合的8个关联性评估和计分函数对131多巴胺D2受体激动剂的化学结构131平行进行共8次分析。研究按照前述方法进行，主要是将对多巴胺D2受体没有影响的101207种分子的化学结构加到131的第一个表中，用计分函数(XV)至(XXIII)计算以下示出的19种化学决定子系列的分值，阅读器会认为这些函数与前面很多实施例采用的函数相同，或者是其密切相关的函数变化。
这些是用8个不同计分函数计算分值的化学决定子。用函数(XV)至(XXIII)及对多巴胺D2受体激动剂具有活性的化学结构表计算上面给出的19个化学决定子的分值。使用的函数是
(XV) 分值＝MW·(x/z)(XVI) 分值＝(x/z)-(y/N)(XVII) 分值＝Nx-yz 图16A至16H所示为相应的相对贡献图。按照前述方法计算上图所示的化学决定子的分值，并以这些决定子对其相应的分值作图。图16A所示为用函数(XV)算出的分值，图16B所示为用函数(XVI)算出的分值，图16C所示为用函数(XVII)算出的分值，图16D所示为用函数(XVIII)算出的分值，图16E所示为用函数(XIX)算出的分值，图16F所示为用函数(XX)算出的分值，图16G所示为用函数(XXI)算出的分值，而图16H所示为用函数(XXII)算出的分值。每个计分函数都选择同一个化学决定子(73)，它最有可能是生物活性的基础。
从图16A至16H表示的相对贡献图可见，8个计分函数中每一个都正确地识别到化学决定子73对应局部最大值，这表示它在19个测试决定子中是最有可能成为多巴胺D2激动剂活性的基础。有趣的是，不同计分函数在排列较低分值的化学决定子时是不同的，例如，用计分函数(XV)、(XVI)和(XVII)计算，决定子62对生物活性的重要性排第三，而用计分函数(XXII)计算，则决定子63排第三，用计分函数(XIX)和(XXI)计算，决定子65排第三，最后，用计分函数(XVIII)和(XXII)测试，决定子66排第三。
总而言之，这些微小差异对本方法取得成功的结果影响不大，这是因为在每一种情形下，较低排名的决定子实际上是较大、最高排名的决定子73的片段(见上图)。因此，直接使用化学决定子73及其片段就足以设计高通量筛选用的化合物集，因为它们恒定不变地含有包含每一个低排名决定子的结构。以下所示为一类被包括在这样一个集合内的化合物的样本。
这些样本结构是一些化合物的例子，用于识别多巴胺D2受体激动剂的化合物集可以选择包括这样一些化合物。以上给出的每个结构都含有化学决定子73或其大部分结构。
结论是，尽管每种情况构建背后的数学理据以及使用8个不同计分函数的情况各有不同，但它们均可识别同一个化学决定子，该决定子最可能是生物活性的基础。所以，在本发明的意义上，含有前面所述的变量x、y、z和N或者q、r、s、t和u各种组合的算法在功能上是等价的。
实施例24 基于信息学的药物发现工具从前面的实施例可见，本发明可以合并成一个或多个步骤系列，例如但不限于，设计成增加高通量筛选效率的计算机程序，化合物发现、hits-to-leads化学、化合物渐进和/或先导物最优化。这些步骤或程序最好设计成以受控、半自动或全自动方式引导进行药物筛选、化合物选择、设定生成(setgeneration)、和/或化学合成的机器和/或机器人系统。这样一些步骤包括但不限于下列形成本发明优选实施例的例子。
·按照本发明分析以相应实验结果注解的化学结构，并识别生物活性化学决定子的方法。
·用本发明识别到的生物活性化学决定子在化学数据库、虚拟或其他数据库进行检索，以识别最有可能具有给定药理、生物化学、毒理和/或生物性质的化合物、生物材料、试剂、反应产物、中间体或其他物质的方法。
·以电子形式或其他形式把用本发明识别到的生物活性化学决定子与实验数据和/或分值存储在寄存器中，定时更新或不作更新，作为高通量筛选、医药化学和/或先导物最优化决策过程中自动或非自动地选择化合物、系列和/或骨架所使用的结构信息贮藏库的方法，所述实验结果和分值与任何一种给定的药理、生物化学、毒理和/或生物性质有关。
·如前面任何一个实施例所述那样用本发明识别药物目标的药理调节剂的方法，例如但不限于受体配体、激酶抑制剂、离子通道调节剂、蛋白酶抑制剂、磷酸酶抑制剂和类固醇受体配体。
·如前面任何一个实施例所述那样直接使用本发明或者在设计成分析化学结构的计算机程序中使用本发明增加化学系列的功效、增加化学系列的选择性、设计具有药理效应的化合物、预测分子潜在的第二药理作用、预测分子潜在的毒理作用、识别受体配体的生物活性基团、预测潜在的蛋白质-蛋白质相互作用、识别孤独配体-受体对、和/或识别药物目标的内源调节剂的方法。后几种使用特别指功能性基因组学和蛋白组学领域，其中，例如基于在生物化学筛选测定中识别到的以及按照本发明处理的分子化学结构，可以选择研究所用的核苷酸和/或氨基酸序列，以便例如识别孤独配体。
·直接使用本发明或者在设计成识别假阳性和/或阴性实验结果的程序中使用本发明的方法。
·直接使用本发明或者在设计成预测分子对人、家畜和/或环境潜在的危险作用的程序中使用本发明的方法，例如筛选用在或作为食品添加剂、用在塑料、纺织等的化学物质。
·直接使用本发明或者在设计成进行构型、构象、立体化学、相似性和/或多样性分析的程序中使用本发明的方法。
·直接使用本发明或者在设计成绘制相对贡献图谱和/或以曲线表示生物活性基团或化学结构的程序中使用本发明的方法。
·单独使用或者串行和/或并行组合使用以上概述的任何一种方法运行打算用在进行药物、除草剂、和/或杀虫发现的信息学工具、计算机程序、和/或专家系统的方法。
·单独使用或者串行和/或并行组合使用以上概述的任何一种方法指导机器和/或仪表自动或非自动、自发或非自发地运行，以及在药物和/或农业发现领域上使用以分值或不以分值注解的最新化学决定子寄存器，以便合理地生成化学结构、检索化合物、合理地产生实验方案和/或筛选数据、和/或合理地选择结果和/或化学结构的方法。
以本领域技术人员的常识很容易就可以得到包括本发明的其他步骤。
权利要求
1.一种进行离散子结构分析的计算机系统的操作方法，其特征在于所述方法包括以下步骤评估(210，220，410)分子结构数据库(110，115)，所述数据库以分子结构信息以及生物和/或化学性质搜索；识别(220)所述数据库内具有给定生物和/或化学性质的分子子集；确定(230，420)所述子集内的分子片段；计算(230，430，610-650)每个片段的分值，其表示各个片段对所述给定生物和/或化学性质的贡献；以及通过分析(250)已确定的片段和计算的分值进行(240，250)反复迭代过程，首先选择至少一个片段，其分值表示它对所述生物和/或化学性质的贡献较高，然后重复评估、识别、确定和计算步骤。
2.如权利要求1所述的方法，其特征在于所述计算分值的步骤包括以下步骤计算(610)含有给定片段的所述分子子集内分子数(x)。
3.如权利要求1或2其中一项所述的方法，其特征在于所述方法还包括以下步骤识别所述数据库内不具有所述生物和/或化学性质的第二分子子集；其中所述计算分值的步骤包括以下步骤计算(620)含有给定片段的所述子集和所述第二分子子集内分子数(y)。
4.如权利要求1至3其中一项所述的方法，其特征在于所述计算分值的步骤包括以下步骤计算(630)所述分子子集内的分子数(z)。
5.如权利要求1至4其中一项所述的方法，其特征在于所述方法还包括以下步骤识别所述数据库内不具有所述给定的生物和/或化学性质的第二分子子集；其中所述计算分值的步骤包括以下步骤计算(640)所述子集和所述第二分子子集内的分子总数(N)。
6.如权利要求1至5其中一项所述的方法，其特征在于所述迭代过程是通过在下一轮选择分子量比上一轮的片段高的片段来进行的。
7.如权利要求1至6其中一项所述的方法，其特征在于所述方法还包括以下步骤基于计算的分值选择(710)片段；分析(810)所选片段的结构；寻找(820)在片段结构内的通用项目；以及以通用表达式代替(830)通用项目，产生通用子结构。
8.如权利要求7所述的方法，其特征在于所述方法还包括以下步骤用通用子结构进行(840)虚拟筛选。
9.如权利要求1至8其中一项所述的方法，其特征在于所述分析已确定的片段与计算的分值的步骤包括以下步骤基于计算的分值选择(1010)第一片段；基于计算的分值选择(1020)第二片段；以及利用退火函数形成(1030)分子子结构，其包括所述第一片段和所述第二片段。
10.如权利要求1至9其中一项所述的方法，其特征在于分析已确定的片段与计算的分值的步骤包括以下步骤基于计算的分值选择(710)至少一个片段；从上一个分子子集抽取(720)化合物，被抽取的化合物含有所选择的片段；从上一个分子子集选择(730)不包含所选片段的化合物，或者不包括在上一个分子子集内的化合物；以及形成(740)一个新的分子子集，所述子集包括被抽取和选择的化合物。
11.如权利要求1至10其中一项所述的方法，其特征在于所述方法还包括以下步骤形成(230)一个片段库(120)，所述片段库包括已确定的片段与计算的分值。
12.如权利要求1至11其中一项所述的方法，其特征在于所述数据库是专用数据库。
13.如权利要求1至12其中一项所述的方法，其特征在于所述数据库是公用数据库。
14.如权利要求1至13其中一项所述的方法，其特征在于所述数据库是氨基酸和/或核苷酸序列数据库，而且所述生物和/或化学性质对相关蛋白质具有给定效应。
15.如权利要求1至14其中一项所述的方法，其特征在于所述生物和/或化学性质是药理性质，而且该方法用于药物发现。
16.如权利要求1至15其中一项所述的方法，其特征在于所述方法还包括以下步骤汇编(260)含有至少一个已确定片段的化合物集。
17.如权利要求16所述的方法，其特征在于所述方法还包括以下步骤测试所述汇编集的化合物的所述给定生物和/或化学性质。
18.一种计算机程序产品，其特征在于所述产品设计成实施权利要求1至17其中一项所述的方法。
19.一个片段库，其特征在于所述片段库是通过实施权利要求1至17所述方法而形成的。
20.一种进行离散子结构分析的计算机系统，其特征在于所述系统包括分子结构数据库的评估装置(100，110，115)，所述数据库可以分子结构信息以及生物和/或化学性质检索；所述数据库内具有给定生物和/或化学性质的分子子集的识别装置(100，130)；所述子集内的分子片段的确定装置(100，130，135)；每个片段的分值的装置(100，130，140)，所述分值表示各个片段对所述给定生物和/或化学性质的贡献；以及是否进行反复迭代过程，而如果要进行迭代过程，分析已确定的片段与计算的分值，并进行反复迭代过程的确定装置(100，130)。
21.如权利要求20所述的计算机系统，其特征在于所述系统用于实施权利要求1至17其中一项所述的方法。
22.通过合成分子得到的药物化合物，其特征在于所述分子含有至少一个通过实施权利要求1至17其中一项所述方法确定的片段。
全文摘要
本发明提供了一种进行离散子结构分析的计算机系统的操作方法及相应的计算机系统。首先，接入分子结构数据库。数据库可以分子结构信息与生物和/或化学性质检索。在所述数据库中，识别具有给定生物和/或化学性质的分子集。然后确定所述子集内的每一个分子片段，计算每个片段的分值，该分值表示各片段对所述给定生物和/或化学性质的贡献。最后，通过分析已确定的片段和计算的分值来进行迭代过程，其中，首先选择至少一段其分值表示对所述生物和/或化学性质的贡献较大的片段，然后，重复评估、识别、确定和计算步骤。片段可以是分子的任何一个结构亚单位(subunit)。生物和/或化学性质包括生物化学、药理、毒理、杀虫、除草、催化性质。本发明最好用于DNA向后排序或药物发现。优选实施例包括在每次迭代中使片段尺寸增大的迭代过程、基因型(generiy)子结构的使用、以及使片段粘合在一起的退火过程。
文档编号G06F19/16GK1493051SQ01820722
公开日2004年4月28日申请日期2001年10月16日优先权日2000年10月17日
发明者D·彻齐, J·科林格, D 彻齐, 指申请人:应用研究系统Ars股份公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.彻齐;J.科林格
技术所有人：应用研究系统ARS股份公司
我是此专利的发明人

上一篇：缴纳书发行系统及费用缴纳系统的制作方法
上一篇：流水线处理器的异常管理的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。