学习预测复合物对标靶的影响的制作方法

文档序号：6494629阅读：134来源：国知局

学习预测复合物对标靶的影响的制作方法
【专利摘要】一种由一个或多个处理装置执行的方法包括：获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于获得的实验和模型，生成关于待执行的实验的预测；基于预测，从待执行的实验中选择一个或多个实验；执行一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。
【专利说明】学习预测复合物对标靶的影响
[0001]优先权要求
[0002]本申请要求2011年2月14日申请的临时美国专利申请61/463，206、2011年2月18日申请的临时美国专利申请61/463，589以及2011年2月18日申请的临时美国专利申请61/463，593的优先权，每个申请的全部内容通过引用合并于此。
[0003]政府权利
[0004]在此公开的技术在国家卫生研究院之下由政府支持完成，项目编号为3R01GM075205-03S2。政府可以在公开于此的技术中具有一定的权利。
【背景技术】
[0005]药物开发是以疾病中涉及的蛋白质的识别开始并且在临床试验中测试之后结束的漫长过程。对蛋白质而言，对药物进行识别，所述药物增加或者降低与疾病相联系的蛋白质的活性。
[0006]在例子中，高通量筛选(HTS)是测试很多药物对蛋白质的影响的常用方法。在HTS中，化验用于检测药物对蛋白质的影响。通常，化验包括用于确定另一材料的特性的材料。

【发明内容】

[0007]在本公开的一方面，由一个或多个处理装置执行的方法包括:获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于获得的实验和模型，生成对于待执行的实验的预测；基于预测，从待执行的实验中选择一个或多个实验；执行一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。
[0008]本公开的实施可以包括以下特征中的一个或多个。在一些实施中，预测包括指示复合物被预测是否对标靶有影响的值。在其它实施中，影响包括积极影响或者消极影响。在还有的其它实施中，选择包括:从待执行的实验中选择相对于待执行的实验中的其它实验的其它影响的其它预测而言与增加的影响的预测相关联的实验。
[0009]在一些实施中，该方法包括:重复生成预测、选择、执行和更新的行为，直到检测到预定义的条件为止。在其它实施中，该方法包括检索指示标靶和复合物的信息；其中获得包括:根据获得的信息生成实验空间，其中实验空间包括指示与标靶和复合物的组合相关联的实验的信息的视觉表示；并且其中更新包括更新实验空间。
[0010]在一些实施中，该方法包括检索指示复合物和标靶中的一个或多个的特征的信息；其中生成模型包括:基于特征生成模型。在其它实施中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。
[0011]在一些实施中，模型包括:不依赖于复合物和标靶的特征生成模型。在其它实施中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个；并且标靶包括蛋白质、酶和核酸中的一个或多个。[0012]在本公开的再一方面，由一个或多个处理装置执行的方法包括:获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于标靶和复合物中的一个或多个的特征，并且根据获得的实验，选择一个或多个实验用于执行；执行选择的一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。
[0013]在本公开的再一方面，一个或多个机器可读介质被配置成存储指令，所述指令可由一个或多个处理装置执行，以执行前述特征中的一个或多个。
[0014]在本公开的又一方面，电子系统包括:一个或多个处理装置；以及一个或多个机器可读介质，其配置成存储指令，所述指令可由一个或多个处理装置执行，以执行前述特征中的一个或多个。
[0015]前述内容中的全部或部分可以实施为包括指令的计算机程序产品，所述指令存储在一个或多个非暂态机器可读存储介质上，并且可在一个或多个处理装置上执行。前述内容中的全部或部分可以实施为设备、方法或电子系统，其可以包括一个或多个处理装置和存储器，以便存储可执行的指令以实施所述功能。
[0016]在下面的附图和描述中阐述一个或多个实施的细节。从描述和附图中，并且从权利要求中，其它特征、目标和优点将是明显的。
【专利附图】

【附图说明】
[0017]图1是用于生成复合物对标靶的影响的预测的网络环境的例子的示图。
[0018]图2是示出用于生成复合物对标靶的影响的预测的网络环境的部件的例子的框图。
[0019]图3是示出用于生成复合物对标靶的影响的预测的示例过程的流程图。
[0020]图4示出了可以用于实现在此描述的技术的计算机装置和移动计算机装置的例子。
[0021 ] 各个附图中的相同的附图标记和名称指示相同的元件。
【具体实施方式】
[0022]符合本公开的系统测量和/或生成复合物对标靶的影响的预测。通常，标靶包括可以对其测量影响的项目。标靶的类型包括蛋白质、酶、核酸等。通常，复合物包括材料。复合物的类型包括药物、药物的组合(例如药物鸡尾酒)、化学制品、聚合物、核酸等。
[0023]在例子中，系统包括数千个标靶和数百万个复合物。使用主动学习技术，系统被配置成生成所有复合物对所有标靶的影响的测量或预测。
[0024]图1是用于生成复合物对标靶的影响的预测的网络环境100的例子的示图。网络环境100包括网络102、数据储存库105和服务器110。
[0025]数据储存库105可以通过网络102与服务器110通信。网络环境100可以包括成千上万的数据储存库和服务器，未示出这些数据储存库和服务器。服务器110可以包括各种数据引擎，例如包括数据引擎111。尽管数据引擎111在图1中被示为单个部件，但数据引擎111可以存在于一个或多个部件中，这些部件可以由网络102分布和耦接。
[0026]在图1的例子中，数据引擎111从数据储存库105中检索指示标靶124a...124n以及复合物122a...122n的信息。在这个例子中，数据引擎111被配置成执行实验以预测复合物122a...122n中的一个或多个对标靶124a...124n中的一个或多个的影响。数据引擎111使用标靶124a...124n和复合物122a...122n生成实验空间118。通常，实验空间118包括涉及标祀124a...124n和复合物122a...122n的实验组126的视觉表示。在这个例子中，实验126被视觉上表示为具有黑色边界线的白色圆圈。
[0027]在例子中，实验126包括已执行的实验和未执行的实验。通常，已执行的实验包括已经由数据引擎111执行的实验。未执行的实验包括还未由数据引擎111执行的实验。
[0028]当实验126被执行时，数据引擎111可以将实验与观测数据相关联。通常，观测数据包括指示复合物对标靶的影响的信息。例如，观测数据可以包括指示复合物增加还是减少标靶中的活性的信息。
[0029]基于来自实验的观测数据，数据引擎111可以注释实验。如下面进一步详细地描述的那样，可以通过将圆圈的颜色改变为黑色和/或通过将边界线改变为虚线来注释实验。
[0030]在例子中，数据引擎111从数据储存库105中检索实验结果104。在这个例子中，实验结果104包括指示先前已经由实体执行的实验的结果的信息。例如，实验结果104可以包括PubChem化验数据，例如包括关于针对标靶使用化验所测试的复合物的信息。
[0031]在这个例子中，实验结果104包括指示复合物122b对标靶124d的结果、复合物122d对标靶124a-124b的结果、复合物122e对标靶124c的结果以及复合物122g对标靶124d的结果的信息。结果包括积极的结果、消极的结果等。通常，积极的结果指示在标靶中增加活性的复合物。通常，消极的结果指示在标靶中降低活性的复合物。
[0032]在这个例子中，数据引擎111使用实验结果104初始化实验空间118。数字引擎111通过使用观测数据例如指示积极的结果的信息和/或使用指示消极的结果的信息注释实验126中的一个或多个来初始化实验空间118。在这个例子中，对于积极的实验结果使用黑色实心圆圈注释实验。在这个例子中，对于消极的结果使用虚线注释实验。
[0033]在这个例子中，例如，如与复合物122d和标靶124a相关联的实验的虚线所指示的那样，复合物122d对标靶124a具有消极的结果。如图1所示，复合物122b对标靶124d具有积极的结果。复合物122d对标靶124b具有积极的结果。复合物122e对标靶124c具有积极的结果。复合物122g对标靶124d具有积极的结果。
[0034]在另一个例子中，数据引擎111可以生成实验结果104。在这个例子中，数据引擎111通过随机地选择标靶124a...124n的子集和复合物122a...122n的子集生成实验结果104。数据引擎111对于可以从子集中生成的标靶和复合物的每个组合执行实验。在这个例子中，数据引擎111通过以下来执行实验:在微量滴定板中对标靶施加复合物，并且测量结果，例如包括测量吸光率、荧光性或发光，作为标靶活性的反映。使用观测数据(例如实验的结果)，数据引擎111使用指示结果的数据(例如包括虚线和/或黑色实心圆圈)注释实验126中的一个或多个。
[0035]在初始化实验空间118之后，数据引擎111生成模型以表示实验空间1118中的可用数据。使用该模型，数据引擎111选择附加的实验(例如附加的复合物-标靶对)以相对于例如在附加实验的执行之前的模型的精确度提高模型的精确度。数据引擎111执行附加的实验。[0036]数据引擎111收集由执行附加实验产生的数据。使用所收集的数据，数据引擎111使用指示实验的观测结果的数据来更新实验空间118。如先前所描述的，数据引擎111基于复合物增加还是降低标靶中的活性来注释实验126中的一个或多个。
[0037]在例子中，数据引擎111继续上面所描述的行为，直到模型实现所期望的精确度水平，直到已经耗尽所指定的预算，直到所有实验126已经被注释等。通常，预算指的是资源量，例如包括计算能力、带宽、时间等。
[0038]在例子中，由数据引擎111生成的模型包括主动学习模型。通常，主动学习模型包括交互地查询信息源以在新数据点获得所期望的输出的机器学习模型。
[0039]在这个例子中，数据引擎111被配置成生成多种类型的模型，例如不依赖于复合物122a.? ? 122n和标靶124a.? ? 124n的特征的模型、依赖于复合物122a.? ? 122n和标靶124a...124n的特征的模型等。通常，特征包括项目的特性，包括标靶和/或复合物的特性。
[0040]不依赖于标靶和复合物的特征的模型
[0041]在例子中，数据引擎111被配置成使用初始化的实验空间118以及在初始化实验空间118之后执行的附加实验的结果来生成模型。在这个例子中，模型包括生成复合物对标靶的影响的预测的预测模型。使用模型的预测，数据引擎111还被配置成选择一批实验以相对于例如该批实验的执行之前的模型的精确度进一步增加模型的精确度。
[0042]不依赖于特征的模型的生成
[0043]在例子中，数据引擎111被配置成生成模型以预测复合物122a...122n对标靶124a...124n的影响。在这个例子中，模型包括定义复合物122a...122n与标靶124a...124n之间的关系的信息。在这个例子中，数据引擎111通过生成复合物122a.? ? 122n和标靶124a.? ? `124n的聚类来生成模型。
[0044]数据引擎111执行聚类技术以将复合物122a...122n和标靶124a...124n—起分组成一个或多个聚类。在这个例子中，数据引擎111基于实验空间118的初始化的结果生成聚类。例如，与消极的结果相关联的复合物-标靶对可以被分组成一个聚类。与积极的结果相关联的复合物-标靶对可以被分组成另一聚类。根据聚类，数据引擎111通过学习各种聚类中的复合物与标靶之间的关联来生成模型。
[0045]在例子中，数据引擎111执行探索阶段，在探索阶段中，数据引擎111学习关于复合物122a...122n和标靶124a...124n中的每一个的信息。在这个例子中，数据引擎111可以实现包括其信息未知的复合物122a...122n和/或标靶124a...124n的实验。例如，所学习的信息可以包括表型。通常，表型包括有机体的可观测的物理和/或生物化学特性。在这个例子中，数据引擎111例如基于复合物122a...122n和标靶124a...124n的表型生成复合物122a.? ? 122n和标靶124a.? ? 124n的聚类。
[0046]在例子中，数据引擎111可以确定特定的复合物(例如复合物122a)如何扰动各个标靶124a...124n。被以相似的方式扰动的标靶124a...124n可能是相关的。基于扰动的结果，数据引擎111识别标靶124a...124n的表型。在这个例子中，表型包括指示由标靶124a...124n对由复合物122a引起的扰动的反应的信息。数据引擎111使用标靶124a...124n的表型生成标靶124a...124n的具有相似表型的聚类。
[0047]数据引擎111使用聚类生成预测模型。例如，预测模型可以包括线性回归模型。线性回归模型可以根据下面的表1中示出的公式来训练:
【权利要求】
1.一种由一个或多个处理装置执行的方法，包括: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于获得的所述实验和所述模型，生成针对待执行的实验的预测；基于所述预测，从待执行的实验中选择一个或多个实验；执行所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
2.根据权利要求1所述的方法，其中，预测包括指示复合物被预测是否对标靶具有影响的值。
3.根据权利要求2所述的方法，其中，影响包括积极影响或消极影响。
4.根据权利要求3所述的方法，其中，选择包括: 从待执行的实验中选择相对于待执行的实验中的其它实验的其它影响的其它预测而言与增加的影响的预测相关联的实验。
5.根据权利要求1所述的方法，进一步包括: 重复生成预测、选择、执行和更新的行为，直到检测到预先定义的条件为止。
6.根据权利要求1所述的方法，进一步包括: 检索指示所述标靶和所述复合物的信息，其中，获得包括: 根据获得的信息生成实验空间，其中，所述实验空间包括指示与所述标靶和所述复合物的组合相关联的实验的信息的视觉表示，并且其中，更新包括更新所述实验空间。
7.根据权利要求1所述的方法，进一步包括: 检索指示所述复合物和所述标靶中的一个或多个的特征的信息，其中，生成所述模型包括: 基于所述特征生成所述模型。
8.根据权利要求7所述的方法，其中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。
9.根据权利要求1所述的方法，其中，生成所述模型包括: 不依赖于所述复合物和所述标靶的特征生成所述模型。
10.根据权利要求1所述的方法，其中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个；并且其中，标靶包括蛋白质、酶和核酸中的一个或多个。
11.一种由一个或多个处理装置执行的方法，包括: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于所述标靶和所述复合物中的一个或多个的特征，并且根据获得的实验，选择一个或多个实验用于执行；执行选择的所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
12.—种或多种机器可读介质，其配置成存储指令，所述指令可由一个或多个处理装置执行，以执行包括以下步骤的操作: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于获得的所述实验和所述模型，生成针对待执行的实验的预测；基于所述预测，从待执行的实验中选择一个或多个实验；执行所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
13.根据权利要求12所述的一种或多种机器可读介质，其中，预测包括指示复合物被预测是否对标靶具有影响的值。
14.根据权利要求13所述的一种或多种机器可读介质，其中，影响包括积极影响或消极影响。`
15.根据权利要求14所述的一种或多种机器可读介质，其中，选择包括: 从待执行的实验中选择相对于待执行的实验中的其它实验的其它影响的其它预测而言与增加的影响的预测相关联的实验。
16.根据权利要求12所述的一种或多种机器可读介质，其中，所述操作进一步包括: 重复生成预测、选择、执行和更新的行为，直到检测到预先定义的条件为止。
17.根据权利要求12所述的一种或多种机器可读介质，其中，所述操作进一步包括: 检索指示所述标靶和所述复合物的信息，其中，获得包括: 根据获得的信息生成实验空间，其中，所述实验空间包括指示与所述标靶和所述复合物的组合相关联的实验的信息的视觉表示，并且其中，更新包括更新所述实验空间。
18.根据权利要求12所述的一种或多种机器可读介质，其中，所述操作进一步包括: 检索指示所述复合物和所述标靶中的一个或多个的特征的信息，其中，生成所述模型包括: 基于所述特征生成所述模型。
19.根据权利要求18所述的一种或多种机器可读介质，其中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。
20.根据权利要求12所述的一种或多种机器可读介质，其中，生成所述模型包括: 不依赖于所述复合物和所述标靶的特征生成所述模型。
21.根据权利要求12所述的一种或多种机器可读介质，其中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个，并且其中，标靶包括蛋白质、酶和核酸中的一个或多个。
22.—种或多种机器可读介质，其配置成存储指令，所述指令可由一个或多个处理装置执行，以执行包括以下步骤的操作: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于所述标靶和所述复合物中的一个或多个的特征，并且根据获得的实验，选择一个或多个实验用于执行；执行选择的所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
23.—种电子系统,包括: 一个或多个处理装置；以及一种或多种机器可读介质，其配置成存储指令，所述指令可由所述一个或多个处理装置执行，以执行包括以下步骤的操作: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于获得的所述实验和所述模型，生成针对待执行的实验的预测；基于所述预测，从待执行的实验中选择一个或多个实验；执行所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
24.根据权利要求23所述的电子系统，其中，预测包括指示复合物被预测是否对标靶具有影响的值。
25.根据权利要求24所述的电子系统，其中，影响包括积极影响或消极影响。
26.根据权利要求25所述的电子系统，其中，选择包括: 从待执行的实验中选择相对于待执行的实验中的其它实验的其它影响的其它预测而言与增加的影响的预测相关联的实验。
27.根据权利要求23所述的电子系统，其中，所述操作进一步包括: 重复生成预测、选择、执行和更新的行为，直到检测到预先定义的条件为止。
28.根据权利要求23所述的电子系统，其中，所述操作进一步包括: 检索指示所述标靶和所述复合物的信息，其中，获得包括: 根据获得的信息生成实验空间，其中，所述实验空间包括指示与所述标靶和所述复合物的组合相关联的实验的信息的视觉表示，并且其中，更新包括更新所述实验空间。
29.根据权利要求23所述的电子系统，其中，所述操作进一步包括: 检索指示所述复合物和所述标靶中的一个或多个的特征的信息，其中，生成所述模型包括: 基于所述特征生成所述模型。
30.根据权利要求29所述的电子系统，其中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。
31.根据权利要求23所述的电子系统，其中，生成所述模型包括: 不依赖于所述复合物和所述标靶的特征生成所述模型。
32.根据权利要求23所述的电子系统，其中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个，并且其中，标靶包括蛋白质、酶和核酸中的一个或多个。
33.一种电子系统,包括: 一个或多个处理装置；以及一种或多种机器可读介质，其配置成存储指令，所述指令可由所述一个或多个处理装置执行，以执行包括以下步骤的操作: 获得指示与标靶和复合物的组合相关联的实验的信息；使用所述实验中的至少一个实验的结果来初始化所述信息；基于初始化，生成模型以预测所述复合物对所述标靶的影响；基于所述标靶和所述复合物中的一个或多个的特征，并且根据获得的实验，选择一个或多个实验用于执行；执行选择的所述一个或多个实验；以及使用所述一个或多个实验的执行的一个或多个结果来更新所述模型。
【文档编号】G06F17/30GK103493057SQ201280013276
【公开日】2014年1月1日申请日期:2012年2月14日优先权日:2011年2月14日
【发明者】阿马格汗·W·奈克, 乔舒亚·D·坎加斯, 克里斯托弗·J·兰米德, 罗伯特·F·墨菲申请人:卡内基·梅隆大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿马格汗·W·奈克;乔舒亚·D·坎加斯;克里斯托弗·J·兰米德;罗伯特·F·墨菲
技术所有人：卡内基·梅隆大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。