分子筛选的方法、装置、电子设备及存储介质与流程

文档序号:30270806发布日期:2022-06-02 09:01阅读:291来源:国知局
分子筛选的方法、装置、电子设备及存储介质与流程

1.本公开涉及人工智能技术领域中的深度学习技术领域、图论技术领域和生物与信息技术领域,尤其涉及一种分子筛选的方法、装置、电子设备及存储介质。


背景技术:

2.玻色采样是一种具有很强计算能力的近代量子光学算法,其原理是将相同的光子送入一个量子光学系统中,并使用光子计数器测量量子光学系统的输出态,高斯玻色采样作为玻色采样的延伸,可以被应用于解决图组合问题,然而如何更好的应用高斯玻色采样解决特定问题,增加高斯玻色采样的落地场景仍然是一个巨大的挑战,其中如何应用高斯玻色采样高效地实现基于配体的药物虚拟筛选,提高分子筛选的效果已经成为一个亟待解决的问题。


技术实现要素:

3.提供了一种分子筛选的方法、装置、电子设备及存储介质。
4.根据第一方面,提供了一种分子筛选的方法,包括:获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图;每个所述待筛选分子与所述参考分子组成分子对,针对每个所述分子对,获取所述第一标签图和所述第二标签图的顶点之间的映射和所述映射之间的冲突信息,并基于所述映射和所述映射之间的冲突信息生成所述分子对的映射图;对所述映射图进行采样,获取所述分子对的最大权重全连接子图;根据每个所述分子对的最大权重全连接子图,从所述待筛选分子集中筛选出与所述参考分子相似度最大的待筛选分子,作为目标分子。
5.根据第二方面,提供了一种分子筛选的装置,包括:获取模块,用于获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图;映射模块,用于每个所述待筛选分子与所述参考分子组成分子对,针对每个所述分子对,获取所述第一标签图和所述第二标签图的顶点之间的映射和所述映射之间的冲突信息,并基于所述映射和所述映射之间的冲突信息生成所述分子对的映射图;采样模块,用于对所述映射图进行采样,获取所述分子对的最大权重全连接子图;筛选模块,用于根据每个所述分子对的最大权重全连接子图,从所述待筛选分子集中筛选出与所述参考分子相似度最大的待筛选分子,作为目标分子。
6.根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的分子筛选的方法。
7.根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的分子筛选的方法。
8.根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述分子筛选的方法的步骤。
9.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案,不构成对本公开的限定。其中:
11.图1是根据本公开第一实施例的分子筛选的方法的流程示意图;
12.图2是根据本公开第二实施例的分子筛选的方法的流程示意图;
13.图3是根据本公开第三实施例的分子筛选的方法的流程示意图;
14.图4是根据本公开第四实施例的分子筛选的方法的流程示意图;
15.图5是根据本公开第五实施例的分子筛选的方法的流程示意图;
16.图6是根据本公开实施例的分子筛选的方法中生成分子的标签图的示意图;
17.图7是根据本公开第六实施例的分子筛选的方法的流程示意图;
18.图8是根据本公开第七实施例的分子筛选的方法的流程示意图;
19.图9为根据本公开实施例的分子筛选的方法的整体示意图;
20.图10是根据本公开第一实施例的分子筛选的装置的框图;
21.图11是根据本公开第二实施例的分子筛选的装置的框图;
22.图12是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.人工智能(artificialintelligence,简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,ai技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
25.深度学习(deep learning,简称dl),是机器学习(machine learning,简称ml)领域中一个新的研究方向,学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。就具体研究内容而言,主要包括基于卷积运算的神经网络系统,即卷积神经网络;基于多层神经元的自编码神经网络;以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
26.图论(graph theory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
27.生物技术(biotechnology)是以生命科学为基础,利用生物(或生物组织、细胞及其他组成部分)的特性和功能,设计、构建具有预期性能的新物质或新品系,以及与工程原理相结合,加工生产产品或提供服务的综合性技术。信息技术(information science)是研究信息的获取、传输和处理的技术,由计算机技术、通信技术、微电子技术结合而成,即是利用计算机进行信息处理,利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。信息技术和生物技术都是高新技术,二者在新经济中并非此消彼长的关系,而是相辅相成,共同推进21世纪经济的快速发展。
28.下面结合附图描述本公开实施例的分子筛选的方法、装置、电子设备及存储介质。
29.图1是根据本公开第一实施例的分子筛选的方法的流程示意图。
30.如图1所示,本公开实施例的分子筛选的方法具体可包括以下步骤:
31.s101,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图。
32.具体的,本公开实施例的分子筛选的方法的执行主体可为本公开实施例提供的分子筛选的装置,该分子筛选的装置可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
33.本公开实施例的分子筛选的方法可应用于实现基于配体的药物虚拟筛选(ligand-based virtual screening,简称lvs),依赖于“拥有相似结构的分子倾向于拥有相似属性”的原则从分子数据库中筛选出潜在药物分子。
34.在本公开实施例中,将待筛选分子集(如分子数据库)中的多个分子作为待筛选分子,将每个待筛选分子与参考分子进行比较,以此获取与参考分子相似度较高的目标分子,其中分子可以为药物分子。在一些实施例中,针对待筛选分子集中的每一个待筛选分子,获取该待筛选分子(分子a)的标签图作为第一标签图(ga),以及获取参考分子(分子b)的标签图作为第二标签图(gb),其中标签图顶点和边的关系与分子的结构相对应,可以看作是包含分子的特征的无向图。
35.s102,每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射和映射之间的冲突信息生成分子对的映射图。
36.在本公开实施例中,每一个待筛选分子分别与参考分子组成分子对,针对每个分子对,获取该分子对中待筛选分子的第一标签图和参考分子的第二标签图的顶点之间的映射,例如第一标签图ga中的顶点a1与第二标签图gb中的顶点b1之间的映射,该映射可以理解为在顶点a1与顶点b1之间构建对应关系。需要说明的是,获取的映射应为第一标签图和第二标签图的顶点之间存在的所有可能的映射。此外,获取所有可能的映射中任意两个之间的冲突信息,该冲突信息可以理解为若两个映射之间存在冲突,那么这两个映射不能同时存在。本公开实施例基于获取的映射和映射之间的冲突信息生成该分子对的映射图(g
ab
)。
37.s103,对映射图进行采样,获取分子对的最大权重全连接子图。
38.在本公开实施例中,映射图g
ab
为无向图,包含顶点集、边集和权重集,基于高斯玻色采样(gaussian boson sampling,简称gbs)对分子对的映射图进行采样,得到该分子对的最大权重权连接子图,其中可以通过贪婪收缩、本地扩张以及利用历史采样信息进行采
样后处理,以获取到效果更好的最大权重全连接子图。
39.s104,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。
40.在本公开实施例中,获取每一个分子对的最大权重全连接子图,根据这些最大权重全连接子图得到待筛选分子与参考分子的相似度,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,将该相似度最大的待筛选分子作为目标分子。
41.综上,本公开实施例的分子筛选的方法,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图,每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射和映射之间的冲突信息生成分子对的映射图,对映射图进行采样,获取分子对的最大权重全连接子图,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。本公开通过将分子建模成带有标签(即特征)的无向图,并基于标签图生成分子对的映射图,利用高斯玻色采样获取该映射图的最大权重全连接子图,基于最大权重全连接子图得到分子对的相似分数,提出了一种基于高斯玻色采样实现分子筛选的框架,从而能够应用高斯玻色采样高效地实现基于配体的药物虚拟筛选的问题,提高分子筛选的效率。
42.图2是根据本公开第二实施例的分子筛选的方法的流程示意图。
43.如图2所示,在图1所示实施例的基础上,本公开实施例的分子筛选的方法具体可包括以下步骤:
44.s201,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图。
45.上述步骤s102具体可包括步骤:
46.s202,将第一标签图中的每个第一顶点,分别与第二标签图中的每个第二顶点进行关键特征匹配,以获取第一顶点和第二顶点之间的映射。
47.在本公开实施例中,将第一标签图ga中的每一个顶点看作第一顶点ai,将第二标签图gb中的每一个顶点看作第二顶点bj,获取其中一个第一顶点ai的关键特征作为第一关键特征,以及其中一个第二顶点bj的关键特征作为第二关键特征,判断第一关键特征与第二关键特征的属性是否相同,若存在至少一个关键特征的属性相同,则生成第一顶点ai与第二顶点bj之间的映射。
48.需要说明的是,分子包括单个原子或多个原子组成的环,上述关键特征为顶点对应的原子或环的特征,该特征存在多个,可分为关键特征和非关键特征。
49.s203,从所有映射中获取无冲突的两个映射形成映射对,并在映射对包括的两个映射之间形成边。
50.在本公开实施例中,根据获取的映射的冲突信息,从所有映射中获取无冲突的两个映射,将这两个映射确定为一个无冲突的映射对。在生成分子对的映射图时,在映射对对应的两个映射之间形成边,可以理解的,存在冲突的映射之间不形成在边。
51.s204,获取映射对应的权重。
52.在本公开实施例中,针对每一个映射,根据该映射对应的第一顶点和第二顶点的原子个数和特征得到该映射对应的权重。
53.s205,以映射为映射图的顶点、无冲突的映射对之间的边和映射的权重生成映射
图。
54.在本公开实施例中,将每个可能的映射作为映射图的顶点,在无冲突的映射对之间形成边,以及根据每个映射的权重形成权重集,以此构成包含顶点集、边集和权重集的映射图。
55.s206,对映射图进行采样,获取分子对的最大权重全连接子图。
56.s207,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。
57.本公开实施例中步骤s201与上述实施例中步骤s101相同,步骤s206-s207与上述步骤s103-s104相同,此处不再赘述。
58.在上述实施例的基础上,如图3所示,步骤s203中“从所有映射中获取无冲突的两个映射形成映射对”,可包括以下步骤:
59.s301,从所有映射中选取两个映射,确定两个映射各自对应的第一顶点和第二顶点。
60.在本公开实施例中,从第一标签图和第二标签图的所有映射中任意选取两个映射,确定这两个映射各自对应的第一顶点和第二顶点。例如,一个映射对应于第一顶点a1和第二顶点b1,另一个映射对应于第一顶点a2和第二顶点b2。
61.s302,获取两个映射各自对应的第一顶点所表征的第一原子或第一环。
62.在本公开实施例中,获取第一顶点a1所表征的原子(即第一原子和第一环)和a2所表征的原子或环(即第一原子或第一环)。
63.s303,获取两个映射各自对应的第二顶点所表征的第二原子或第二环。
64.在本公开实施例中,获取第二顶点b1所表征的原子(即第二原子和第二环)和b2所表征的原子或环(即第二原子或第二环)。
65.s304,响应于两个第一原子或第一环之间未存在原子冲突和距离冲突,且两个第二原子或第二环之间未存在原子冲突和距离冲突,则确定两个映射为无冲突的两个映射,并形成映射对。
66.在本公开实施例中,判断两个第一原子或第一环之间是否存在原子冲突和距离冲突,以及两个第二原子或第二环之间是否存在原子冲突和距离冲突:
67.其中,原子冲突可以通过以下方式判断:将两个第一原子或第一环进行原子比对,以及将两个第二原子或第二环进行原子比对;响应于两个第一原子或第一环中未存在同一原子,且两个第二原子或第二环中未存在同一原子,则确定两个映射未存在原子冲突,可通过以下公式一表示:
[0068][0069]
其中,公式一中a1和a2分别表示两个第一顶点所表征的单个原子或环中多个原子的集合;b1和b2分别表示两个第二顶点所表征的单个原子或环中多个原子的集合。
[0070]
距离冲突可以通过以下方式确定:获取两个第一原子或第一环之间的第一距离,获取两个第二原子或第二环之间的第二距离,响应于第一距离与第二距离之间的差值小于或等于预设距离,则确定两个映射未存在距离冲突。
[0071]
不难理解的,分子对的相似度取决于分子间公共子结构的标签数量,即基于分子
对之间的最大标签公共子结构(labelled maximum common substructure,简称lmcs)判断分子对的相似度,本公开实施例利用gbs得到分子对的映射图的最大权重全连接子图,以此来等价分子对之间的最大标签公共子结构,为保证得到的最大权重全连接子图能够有效对应于公共子结构,将两个映射对应于同一标签图中的两个顶点的距离大致相同作为无距离冲突的条件。例如,针对两个映射,两个映射的第一顶点对应的两个原子之间的距离(第一距离)与两个映射的第二顶点对应的两个原子之间的距离(第二距离)之间的差值不超过预设距离。可通过以下公式二表示:
[0072]
|dist(a1,a2)-dist(b1,b2)|>τ
[0073]
其中,公式一中a1和a2分别表示两个第一顶点所表征的单个原子或环;b1和b2分别表示两个第二顶点所表征的单个原子或环,可以基于欧式距离计算第一距离和第二距离,其中将原子的3d坐标作为原子坐标,将环的几何中心的3d坐标作为环的坐标,在一些实施例中,可以将τ
设置为
[0074]
在上述实施例的基础上,步骤s204中“获取映射对应的权重”,可包括以下步骤:针对每个映射,确定映射对应的第一顶点和第二顶点,根据第一顶点和第二顶点各自的原子个数和特征,生成映射的权重,特征为顶点对应的原子或环的特征。
[0075]
在上述实施例的基础上,如图4所示,本公开实施例的分子筛选的方法还包括根据第一顶点和第二顶点各自的原子个数和特征,生成映射的权重的过程,可通过以下步骤实现:
[0076]
s401,获取第一顶点的原子个数和第二顶点的原子个数的平均值。
[0077]
在本公开实施例中,针对每一个映射,获取该映射对应的第一顶点的原子个数和第二顶点的原子个数的平均值。
[0078]
s402,获取第一顶点和第二顶点之间属性或值相同的特征的个数。
[0079]
在本公开实施例中,将第一顶点对应的特征(即第一顶点表征的原子或环的特征)与第二顶点对应的特征(即第二顶点表征的原子或环的特征)进行特征匹配,其中可以通过对比特征的属性或特征的值是否相同进行特征匹配,以获取第一顶点和第二顶点之间属性或值相同的特征的个数。
[0080]
s403,根据平均值和属性或值相同的特征的个数,确定第一顶点和第二顶点之间的映射的权重。
[0081]
在本公开实施例中,针对每一个映射,根据获取的平均值和属性或值相同的特征的个数,确定第一顶点和第二顶点之间的权重,可以通过公式三表示:
[0082][0083]
其中,公式三中v
ab
为映射图g
ab
=(v
ab
,e
ab
,w
ab
)的顶点集,mi表示映射图中的第i个映射,a表示第i个映射对应的第一顶点,ai表示第一顶点表征的单个原子或环中多个原子的集合,b表示第i个映射对应的第二顶点,bi表示第二顶点表征的单个原子或环中多个原子的集合,|la∩lb|表示第一顶点和第二顶点之间属性或值相同的特征的个数。
[0084]
在上述实施例的基础上,如图5所示,本公开实施例的分子筛选的方法还包括生成分子对应的标签图的过程,其中该分子可以为待筛选分子或为参考分子,可通过以下步骤
实现:
[0085]
s501,根据任一分子的分子结构,生成任一分子的无向图,无向图中的顶点对应分子的单个原子或包含多个原子的环,无向图中的边对应分子中的化学键。
[0086]
在本公开实施例中,可以以原子为顶点、键为边生成无向图,对于包含多原子的环来说,将环缩成单个顶点,对于具有公共键的两个环,我们在图中相应的顶点之间添加了一条辅助边,如图6所示为分子a和分子b构建标签图ga和gb。
[0087]
s502,提取任一分子中每个原子的特征,并基于提取的特征生成任一分子的特征标签集,其中特征标签集中包括单个原子的特征和环的特征,环的特征由环包含的多个原子的特征聚合得到。
[0088]
在本公开实施例中,如表1所示,原子的特征可以包括原子序数、隐式h键、形式电荷和度数等多种,提取分子中包括的每一个原子的特征,识别提取到的特征的特征类型,并基于特征类型确定提取的特征的关键特征标签,其中,关键特征标签用于指示特征是否为关键特征,基于提取的特征、特征的特征类型和特征的关键特征标签,生成特征标签集。
[0089]
其中,在本公开实施例中考虑了原子的化学特征和药学特征,并基于“关键”机制将特征分为关键(c)和非关键(nc)两种,以便于映射。其中特征类型包括加性化学特征、非加性化学特征和药学特征,非加性化学特征和药学特征为关键特征,加性化学特征为非关键特征。
[0090]
表1原子的特征与关键特征标签对应表
[0091][0092][0093]
其中,“(药)”用来标记药学特征。
[0094]
需要说明的是,可以通过聚合环所包含的原子的特征得到环的特征。例如,对于加性特征(即隐式h键、形式电荷和度数),我们将每个环中的每个原子的相应值相加。对于非加性特征(即原子序数和所连化学键),我们保留一个排序的列表。最后,对于其他七个药学
特征,如果环中的任何一个原子具有该特征,我们就将其特征标签设置为“真”,若不存在原子具有该特征,则将该特征标签设置为“假”。
[0095]
s503,根据任一分子的无向图和特征标签集生成任一分子对应的标签图,其中,任一分子为待筛选分子,对应的标签图为第一标签图,任一分子为参考分子,对应的标签图为第二标签图。
[0096]
在本公开实施例中,将两个分子表示为a和b,并将它们对应的标签图分别表示为ga=(va,ea,la)和gb=(vb,eb,lb),标签图中包括顶点集v、边集合e和特征标签集l。
[0097]
在上述实施例的基础上,如图7所示,上述步骤s207中“根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子”,可以包括以下步骤:
[0098]
s701,基于分子对的最大全连接图,获取分子对中待筛选分子和参考分子的标签图之间的相似度。
[0099]
s702,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。
[0100]
在上述实施例的基础上,如图8所示,上述步骤s701中“基于分子对的最大全连接图,获取分子对中待筛选分子和参考分子的标签图之间的相似度”,可以包括以下步骤:
[0101]
s801,获取第一标签图的第一总权重。
[0102]
在本公开实施例中,将第一标签图中所有顶点的权重的总和作为第一总权重,其中每个顶点的权重可以用顶点对应的特征数和顶点对应的原子数确定。
[0103]
s802,获取第二标签图的第二总权重。
[0104]
在本公开实施例中,将第二标签图中所有顶点的权重的总和作为第二总权重,其中每个顶点的权重可以用顶点对应的特征数和顶点对应的原子数确定。
[0105]
s803,基于最大权重全连接子图所包括顶点的权重,确定最大权重全连接子图的第三总权重。
[0106]
s804,根据第一总权重、第二总权重和第三总权重,确定第一标签和第二标签图之间的相似度。
[0107]
在本公开实施例中,可以基于bunke和shearer相似性度量的平均值作为相似分数,可通过公式四表示:
[0108][0109]
其中,wv表示为标签图中顶点的权重wv=|lv|+|v|,其中|v|是顶点v中包含的原子数,m表示最大权重全连接子图的顶点集,ω
mi
与公式三中的ω
mi
相同,表示最大权重全连接子图中顶点的权重。当a和b为同一个分子时,sim(a,b)=1,当时,sim(a,b)=0。否则,sim(a,b)∈(0,1)。因此它可以正确地表征分子的相似性。
[0110]
综上,本公开实施例的分子筛选的方法,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图,每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射
和映射之间的冲突信息生成分子对的映射图,对映射图进行采样,获取分子对的最大权重全连接子图,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。本公开通过将分子建模成带有标签(即特征)的无向图,并基于标签图生成分子对的映射图,利用高斯玻色采样获取该映射图的最大权重全连接子图,基于最大权重全连接子图得到分子对的相似分数,提出了一种基于高斯玻色采样实现分子筛选的框架,从而能够应用高斯玻色采样高效地实现基于配体的药物虚拟筛选的问题,提高分子筛选的效率。
[0111]
为清楚的描述本公开实施例的分子筛选的方法,现结合图9进行详细阐述,图9为根据本公开实施例的分子筛选的方法的整体示意图,如图9所示,以分子a作为待筛选分子,以分子b作为参考分子,根据分子的结构分别生成待筛选分子a对应的第一标签图ga和参考分子b对应的第二标签图gb,根据第一标签图ga和第二标签图gb建立待筛选分子a和参考分子b对应的映射图g
ab
,基于gbs算法生成映射图g
ab
的最大权重全连接子图(maximum weight clique,简称mwc)基于映射图的最大权重全连接子图,将目标原子(如图9所示的灰色实心圆)映射回第一标签图和第二标签图即确定两个分子的公共子结构,从而生成第一标签图和第二标签图的相似分数(即相似度)。
[0112]
图10是根据本公开第一实施例的分子筛选的装置的框图。
[0113]
如图10所示,本公开实施例的分子筛选的装置1000,包括:获取模块1001、映射模块1002、采样模块1003和筛选模块1004。
[0114]
获取模块1001,用于获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图。
[0115]
映射模块1002,用于每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射和映射之间的冲突信息生成分子对的映射图。
[0116]
采样模块1003,用于对映射图进行采样,获取分子对的最大权重全连接子图。
[0117]
筛选模块1004,用于根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。
[0118]
需要说明的是,上述对分子筛选的方法实施例的解释说明,也适用于本公开实施例的分子筛选的装置,具体过程此处不再赘述。
[0119]
综上,本公开实施例的分子筛选的装置,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图,每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射和映射之间的冲突信息生成分子对的映射图,对映射图进行采样,获取分子对的最大权重全连接子图,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。本公开通过将分子建模成带有标签(即特征)的无向图,并基于标签图生成分子对的映射图,利用高斯玻色采样获取该映射图的最大权重全连接子图,基于最大权重全连接子图得到分子对的相似分数,提出了一种基于高斯玻色采样实现分子筛选的框架,从而能够应用高斯玻色采样高效地实现基于配体的药物虚拟筛选的问题,提高分子筛选的效率。
[0120]
图11是根据本公开第二实施例的分子筛选的装置的框图。
[0121]
如图11所示,本公开实施例的分子筛选的装置1100,包括:获取模块1101、映射模块1102、采样模块1103和筛选模块1104。
[0122]
其中,获取模块1101与上一实施例中的获取模块1001具有相同的结构和功能,映射模块1102与上一实施例中的映射模块1002具有相同的结构和功能,采样模块1103与上一实施例中的采样模块1003具有相同的结构和功能,筛选模块1104与上一实施例中筛选模块1004具有相同的结构和功能。
[0123]
进一步的,获取模块1101包括:第一生成子模块11011,用于根据任一分子的分子结构,生成任一分子的无向图,无向图中的顶点对应分子的单个原子或包含多个原子的环,无向图中的边对应分子中的化学键;第二生成子模块11012,提取任一分子中每个原子的特征,并基于提取的特征生成任一分子的特征标签集,其中特征标签集中包括单个原子的特征和环的特征,环的特征由环包含的多个原子的特征聚合得到;第三生成子模块11013,用于根据任一分子的无向图和特征标签集生成任一分子对应的标签图,其中,任一分子为待筛选分子,对应的标签图为第一标签图,任一分子为参考分子,对应的标签图为第二标签图。
[0124]
进一步地,第二生成子模块11012,包括:第一确定单元,用于识别提取到的特征的特征类型,并基于特征类型确定提取的特征的关键特征标签,关键特征标签指示特征是否为关键特征;第二生成单元,用于基于提取的特征、特征的特征类型和特征的关键特征标签,生成特征标签集。
[0125]
进一步地,分子为药物分子,特征类型包括加性化学特征、非加性化学特征和药学特征,非加性化学特征和药学特征为关键特征,加性化学特征为非关键特征。
[0126]
进一步地,映射模块1102,包括:特征匹配子模块,用于将第一标签图中的每个第一顶点,分别与第二标签图中的每个第二顶点进行关键特征匹配,以获取第一顶点和第二顶点之间的映射;第四生成子模块,用于从所有映射中获取无冲突的两个映射形成映射对,并在映射对包括的两个映射之间形成边;第一获取子模块,用于获取映射对应的权重;第五生成子模块,用于以映射为映射图的顶点、无冲突的映射对之间的边和映射的权重生成映射图。
[0127]
进一步地,第四生成子模块,包括:第二确定单元,用于从所有所述映射中选取两个映射,确定所述两个映射各自对应的第一顶点和第二顶点;第一获取单元,用于获取两个映射各自对应的第一顶点所表征的第一原子或第一环;第二获取单元,用于获取两个映射各自对应的第二顶点所表征的第二原子或第二环;第三确定单元,用于响应于两个第一原子或第一环之间未存在原子冲突和距离冲突,且两个第二原子或第二环之间未存在原子冲突和距离冲突,则确定两个映射为无冲突的两个映射,并形成映射对。
[0128]
进一步地,第三确定单元,包括:原子比对子单元,用于将两个第一原子或第一环进行原子比对,以及将两个第二原子或第二环进行原子比对;第二确定子单元,用于响应于两个所第一原子或第一环中未存在同一原子,且两个第二原子或第二环中未存在同一原子,则确定两个映射未存在原子冲突。
[0129]
进一步地,第三确定单元,包括:第一获取子单元,用于获取两个第一原子或第一环之间的第一距离;第二获取子单元,用于获取两个第二原子或第二环之间的第二距离;第二确定子单元,用于响应于第一距离与第二距离之间的差值小于或等于预设距离,则确定
两个映射未存在距离冲突。
[0130]
进一步地,特征匹配子模块,包括:第三获取单元,用于获取其中一个第一顶点的第一关键特征,以及其中一个第二顶点的第二关键特征;判断单元,用于判断第一关键特征与第二关键特征的属性是否相同;第二生成单元,用于若存在至少一个关键特征的属性相同,则生成其中一个第一顶点与其中一个第二顶点之间的映射。
[0131]
进一步地,获取子模块,包括:第三生成单元,用于针对每个映射,确定映射对应的第一顶点和第二顶点,根据第一顶点和第二顶点各自的原子个数和特征,生成映射的权重,特征为顶点对应的原子或环的特征。
[0132]
进一步地,第三生成单元,包括:第三获取子单元,用于获取第一顶点的原子个数和第二顶点的原子个数的平均值;第四获取子单元,用于获取第一顶点和第二顶点之间属性或值相同的特征的个数;第三确定单元,用于根据平均值和属性或值相同的特征的个数,确定第一顶点和第二顶点之间的映射的权重。
[0133]
进一步地,采样模块1103,包括:采样子模块,用于基于高斯玻色采样算法对所述映射图进行采样,得到所述最大权重全连接子图。
[0134]
进一步地,筛选模块1104,包括:第二获取子模块,用于基于分子对的最大全连接图,获取分子对中待筛选分子和参考分子的标签图之间的相似度;筛选子模块,用于从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。
[0135]
进一步地,第二获取子模块,包括:第四获取单元,用于获取第一标签图的第一总权重;第五获取单元,用于获取第二标签图的第二总权重;第三确定单元,用于基于最大权重全连接子图所包括顶点的权重,确定最大权重全连接子图的第三总权重;第四确定单元,用于根据第一总权重、第二总权重和第三总权重,确定第一标签和第二标签图之间的相似度。
[0136]
综上,本公开实施例的分子筛选的装置,获取待筛选分子集中待筛选分子的第一标签图和参考分子的第二标签图,每个待筛选分子与参考分子组成分子对,针对每个分子对,获取第一标签图和第二标签图的顶点之间的映射和映射之间的冲突信息,并基于映射和映射之间的冲突信息生成分子对的映射图,对映射图进行采样,获取分子对的最大权重全连接子图,根据每个分子对的最大权重全连接子图,从待筛选分子集中筛选出与参考分子相似度最大的待筛选分子,作为目标分子。本公开通过将分子建模成带有标签(即特征)的无向图,并基于标签图生成分子对的映射图,利用高斯玻色采样获取该映射图的最大权重全连接子图,基于最大权重全连接子图得到分子对的相似分数,提出了一种基于高斯玻色采样实现分子筛选的框架,从而能够应用高斯玻色采样高效地实现基于配体的药物虚拟筛选的问题,提高分子筛选的效率。
[0137]
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0138]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0139]
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各
种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0140]
如图12所示,电子设备1200包括计算单元1201,其可以根据存储在只读存储器(rom)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(ram)1203中的计算机程序,来执行各种适当的动作和处理。在ram 1203中,还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、rom1202以及ram 1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。
[0141]
电子设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0142]
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如图1至图9所示的分子筛选的方法。例如,在一些实施例中,分子筛选的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到ram1203并由计算单元1201执行时,可以执行上文描述的语义解析方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行分子筛选的方法。
[0143]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0144]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0145]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0146]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0147]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、互联网以及区块链网络。
[0148]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0149]
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现根据本公开上述实施例所示的分子筛选的方法的步骤。
[0150]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0151]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1