识别分子属性的方法、训练识别模型的方法和装置与流程

文档序号：28101955发布日期：2021-12-22 11:46阅读：269来源：国知局

1.本技术实施例涉及人工智能的药物领域，并且更具体地，涉及识别分子属性的方法、训练识别模型的方法和装置。

背景技术：

2.截止目前，在分子属性识别领域，使用的算法主要包括传统机器学习算法和深度学习算法两种。具体地，在传统的机器学习算法方案中，通常使用随机森林(random forests)、支持向量机(support vector machines)等方法，这些方法一般以人工构造的分子描述符(molecular descriptors)或分子指纹(molecular fingerprints)作为数据输入，建立分子属性识别模型。在深度学习方案中，将分子的共价键的属性作为数据输入，并使用图神经网络对分子进行编码学习，构建分子属性识别模型。
3.但是，在传统的机器学习算法方案中，分子属性识别准确率的提升很大程度依赖于分子描述符和分子指纹的构造，而分子描述符和分子指纹的构造一般需要相关的化学领域专家来完成，人为构造的分子描述符和分子指纹表达能力有限，增加了分子属性的识别成本。在深度学习方案中，以图神经网络模型为主,在模型中引入了分子的共价键的属性，基于原子间的共价键来构建分子的分子拓扑图，进而基于构建的分子拓扑图构建分子属性识别模型，但是基于原子间的共价键来构建分子的分子拓扑图无法捕获非共价键相连但空间相距较近原子间的相互作用，导致分子属性的识别准确度过低。
4.因此，本领域亟需一种能够在控制分子属性的识别成本的基础上，提升分子属性的识别准确度。

技术实现要素：

5.本技术提供了一种识别分子属性的方法、训练识别模型的方法和装置，能够在控制分子属性的识别成本的基础上，提升分子属性的识别准确度。
6.一方面，本技术提供了一种识别分子属性的方法，包括：
7.获取分子的分子表达式；
8.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
9.基于该距离矩阵构建该分子的分子拓扑图；
10.以该分子拓扑图为输入，利用识别模型识别该分子的属性。
11.另一方面，本技术提供了一种训练识别模型的方法，包括：
12.获取已标注有属性的分子的分子表达式；
13.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
14.基于该距离矩阵构建该分子的分子拓扑图；
15.以该分子拓扑图以及该分子的属性为输入，训练识别模型。
16.另一方面，本技术提供了一种用于识别分子属性的装置，包括：
17.获取单元，用于：
18.获取分子的分子表达式；
19.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
20.构建单元，用于基于该距离矩阵构建该分子的分子拓扑图；
21.识别单元，用于以该分子拓扑图为输入，利用识别模型识别该分子的属性。
22.另一方面，本技术提供了一种用于训练识别模型的装置，包括：
23.获取单元，用于：
24.获取已标注有属性的分子的分子表达式；
25.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
26.构建单元，用于基于该距离矩阵构建该分子的分子拓扑图；
27.训练单元，用于以该分子拓扑图以及该分子的属性为输入，训练识别模型。
28.本技术实施例中，将该分子的距离矩阵构造为用于表征该分子中的原子的三维结构坐标之间的距离，基于此，通过该距离矩阵来构建该分子的分子拓扑图时，不仅避免了仅通过捕获原子间的共价键构建分子拓扑图，还有可能使得构建的分子拓扑图捕获到非共价键相连但空间相距较近原子间的相互作用，进而，能够提升分子属性的识别准确度。例如，可以有效的预测分子的admet性质，帮助药物研发人员筛选与设计分子。
29.此外，以该分子拓扑图为输入，利用识别模型识别该分子的属性，相当于，通过学习该分子拓扑图来识别该分子的属性，避免了人为构造的分子描述符和分子指纹，进而，能够控制分子属性的识别成本。
30.简言之，通过引入的分子中原子的三维结构坐标之间的距离构建分子拓扑图，并使用识别模型对分子拓扑图进行编码学习，进而利用识别模型识别分子的属性，能够在控制分子属性的识别成本的基础上，提升分子属性的识别准确度。
附图说明
31.图1是本技术实施例提供的基于共价键构建分子拓扑图的示例。
32.图2是本技术实施例提供的基于键识别分子的属性的系统框架。
33.图3是本技术实施例提供的识别分子属性的方法的示意性流程图。
34.图4是本技术实施例提供的基于距离识别分子属性的识别效果和基于键识别的分子的识别效果的对比图。
35.图5是本技术实施例提供的分子的示例。
36.图6是对基于图5所示分子的距离矩阵构建的分子拓扑图进行学习而得到的该分子的相关性矩阵400的示例。
37.图7是本技术实施例提供的基于距离构建分子拓扑图的示例。
38.图8是本技术实施例提供的基于距离识别分子的属性的系统框架。
39.图9是本技术实施例提供的训练识别模型的方法的示意性流程图。
40.图10是本技术实施例提供的用于识别分子属性的装置的示意性框图。
41.图11是本技术实施例提供的用于训练识别模型的装置的示意性框图。
42.图12是本技术实施例提供的电子设备的示意性框图。
具体实施方式
43.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
44.本技术提供的方案可涉及人工智能(artificial intelligence，ai)技术领域。
45.其中，ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
46.应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
47.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
48.本技术实施例可涉及人工智能技术中的计算机视觉(computer vision，cv)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
49.本技术实施例也可以涉及人工智能技术中的机器学习(machine learning，ml)，ml是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
50.本技术还涉及药物领域。通常情况下，药物的研发流程中，在完成靶点识别与验证(target identification and validation)之后，需要对候选药物化合物进行筛选，在筛选流程中，使用分子属性预测算法预测分子的吸收(absorption)、分布(distribution)、代
谢(metabolism)、排泄(excretion)和毒性(toxicity)性质，可以帮助研发人员筛选分子，大大提高研发效率，降低了药物研发成本。
51.图1是本技术实施例提供的基于共价键构建分子拓扑图的示例。
52.如图1所示，可通过分析原子间的共价键得到分子的分子拓扑图，分子拓扑图中相连的两个原子之间必须存在共价键。换言之，相连的两个原子可以指存在共价键则的两个原子，不相连的两个原子可以指不存在共价键则的两个原子。
53.图2是本技术实施例提供的基于键识别分子的属性的系统框架100。
54.如图2所示，该系统框架100可包括图神经网络模型130以及与图神经网络模型130连接的全连接层140。分子110经过特征提取后，得到分子110的共价键的属性120，通过图神经网络模型130对分子110的共价键的属性120进行学习，并通过连接层140输出分子110的属性150。在系统框架100中，引入了分子110的共价键的属性120，以便基于共价键的属性120来构建分子110的分子拓扑图，进而基于构建的分子拓扑图构建图神经网络模型130，但是由于基于共价键的属性120来构建分子110的分子拓扑图无法捕获非共价键相连但空间相距较近原子间的相互作用，导致系统框架100对分子属性的识别准确度过低。
55.为例便于理解本技术的方案，下面对本技术涉及的图神经网络模型130和全连接层140进行说明。
56.图神经网络模型130是一种新型的人工智能神经网络，相比于传统的神经网络，图神经网络模型130的输入为图结构数据(graph)，或者称为图，其由顶点和边组成，可以表示为g＝(v,e)，其中，v表示顶点(vertices)，e表示边(edges)，每个顶点可以用于表示一个对象，边表示顶点之间的关联关系。需要说明的是，在实际应用场景中，例如图结构数据可以是药物分子的分子拓扑图，其中，药物分子中的原子对应于分子拓扑图中的顶点，原子之间的共价键则可以对应于分子拓扑图中的边。特别地，将图神经网络模型130应用于化学领域中，可以有助于加快药物研制、材料科学等多领域的研究发展以及落地应用。例如，通过利用图神经网络模型130对输入的对应于化学分子的图结构数据进行处理可以实现快速地预测该化学分子的化学性质。
57.其中，针对分子110中每一个原子，分子110的分子拓扑图可包括该原子的表征向量和该原子的边的表征向量，分别用于表示原子的性质和边的性质，该表征向量的数据形式例如可以是一维向量或二维矩阵的数据形式。可选的，原子的性质可以对应于原子的初始性质，边的性质可以指该原子与其他原子的连接关系，例如是否存在共价键。
58.图神经网络模型130中可以包括多个由激活函数连接的隐藏层。可以根据实际的应用需求来设置隐藏层的个数。所述激活函数可以是非线性函数，用于对数据进行归一化处理，以使得将数据范围限制在一定数值范围之内，诸如0至1之间，还用于打破神经网络中的线性映射关系。例如，所述激活函数可以是修正线性单元(rectified linear unit，relu)。在图神经网络模型130的每个隐藏层中，每一个原子的表征向量将被更新一次。在经过n个隐藏层处理之后，其中原子的表征向量被更新了n次，得到的输出结果是基于n次更新得到的原子的表征向量，可以称为原子预测表征向量。具体地，对于每个原子，可以利用分子的拓扑结构来更新该原子的表征向量。在这里，相连的原子可以是指有边相连的一对原子。
59.全连接层140的作用则是对提取的特征进行非线性组合以得到输出，即全连接层
本身不被期望具有特征提取能力，而是试图利用现有的高阶特征完成学习目标。在一些实施例中，全连接层的功能可由全局均值池化取代，全局均值池化会将特征图每个通道的所有值取平均。结合隐藏层的输出，全连接层140可以利用读取函数来获得对应于输入(即分子拓扑图)的表征向量，例如，所述读取函数可以将所有原子的原子预测表征向量取平均，以输出对应于输入的表征向量，可以称为图预测表征向量。
60.本技术提供了一种识别分子属性的方法、训练识别模型的方法和装置，能够在控制分子属性的识别成本的基础上，提升分子属性的识别准确度。
61.图3是本技术实施例提供的识别分子属性的方法200的示意性流程图。需要说明的，本技术实施例提供的方案可通过任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
62.如图3所示，该方法300可包括：
63.s210，获取分子的分子表达式；
64.s220，基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
65.s230，基于该距离矩阵构建该分子的分子拓扑图；
66.s240，以该分子拓扑图为输入，利用识别模型识别该分子的属性。
67.例如，该识别模型可以是图神经网络模型。换言之，在获取到该分子的分子拓扑图后，可将该分子拓扑图输入到图神经网络模型中，以便图神经网络基于将该分子拓扑图识别该分子的属性。作为示例，该距离矩阵用于表示该原子的三维坐标和该分子中所有的原子的三维坐标之间的距离，或该距离矩阵用于表示该原子的三维坐标和该分子中除该原子之外的其他原子的三维坐标之间的距离。该分子拓扑图可包括该原子的表征向量和该原子的边的表征向量，分别用于表示原子的性质和边的性质，该表征向量的数据形式例如可以是一维向量或二维矩阵的数据形式。可选的，原子的性质可以对应于原子的初始性质，边的性质可以指该原子与其他原子的连接关系，例如基于该距离矩阵确定。
68.需要说明的是，该分子可以是药物分子，该药物分子中的原子可对应于分子拓扑图中的顶点，两个原子之间的距离可用于构建分子拓扑图中与该两个原子分别对应的顶点之间是否存在连接的边。
69.本技术实施例中，将该分子的距离矩阵构造为用于表征该分子中的原子的三维结构坐标之间的距离，基于此，通过该距离矩阵来构建该分子的分子拓扑图时，不仅避免了仅通过捕获原子间的共价键构建分子拓扑图，还有可能使得构建的分子拓扑图捕获到非共价键相连但空间相距较近原子间的相互作用，进而，能够提升分子属性的识别准确度。例如，可以有效的预测分子的admet性质，帮助药物研发人员筛选与设计分子。
70.此外，以该分子拓扑图为输入，利用识别模型识别该分子的属性，相当于，通过学习该分子拓扑图来识别该分子的属性，避免了人为构造的分子描述符和分子指纹，进而，能够控制分子属性的识别成本。
71.简言之，通过引入的分子中原子的三维结构坐标之间的距离构建分子拓扑图，并使用识别模型对分子拓扑图进行编码学习，进而利用识别模型识别分子的属性，能够在控制分子属性的识别成本的基础上，提升分子属性的识别准确度。
72.此外，还可分别利用本技术提供的基于距离识别分子属性的方法与图2提供的基于键识别分子属性的方法，识别分子的两种水溶性数据集，即动力学水溶性和热力学水溶性，并对动力学水溶性和热力学水溶性的识别效果进行对比，以验证本技术提供的基于距离识别分子属性的识别准确度。
73.图4是本技术实施例提供的基于距离识别分子属性的识别效果和基于键识别的分子的识别效果的对比图。如图4所示，在两种水溶性数据集上对比了均方根误差(root mean square error，rmse)指标，rmse指标的数值越低说明模型效果越好，从图4上可以明显看出，本技术提供的基于距离识别的动力学水溶性和热力学水溶性的rmse指标，分别低于基于键识别的动力学水溶性和热力学水溶性的rmse指标，具体地，相对图2提供的基于键识别分子属性的方法，本技术提供的基于距离识别分子属性的方法针对两种数据集的识别准确度平均提升了7％。即本技术提供的基于距离识别分子属性的方法的识别准确度，高于图2提供的基于键识别分子属性的方法的识别准确度。
74.图5是本技术实施例提供的分子300的示例。图6是对基于图5所示分子的距离矩阵构建的分子拓扑图进行学习而得到的该分子的相关性矩阵400的示例。下面结合图6所示的相关性矩阵400对基于距离矩阵构建的分子拓扑图针对分子中非共价键相连但空间相距较近原子间的相互作用的捕捉效果进行说明。
75.如图5所示，该分子300可以是咪唑啉啶二酮分子，其总共有14个原子。如图6所示，针对距离矩阵构建的分子拓扑图，图神经网络模型通过特征提取，得到咪唑啉啶二酮分子中每个原子的对应的n个特征，即每一个原子可得到一个1*14的特征向量，通过相关性计算可得到任意两个原子之间的相关性数值。相关性数值的取值范围是
‑
1到1，越靠近1，越正相关，越靠近
‑
1越负相关，越靠近0，表示相关性越低。例如通过相关性计算可以得到图7所示的一个14*14的相关性矩阵400。
76.通过分析相关性矩阵400可知，该14*14的相关性矩阵400中的框410、框420和框430分别对应于咪唑啉啶二酮分子中的原子块310、原子320和原子块330，说明针对距离矩阵构建的分子拓扑图能够捕捉到咪唑啉啶二酮分子的共价键。另外，由于原子320和原子块330没有直接的共价键相连，但是它们之间可能存在氢键作用，而位于相关性矩阵400中的框441和442，说明咪唑啉啶二酮分子中的原子320和原子块330有相互作用，说明针对距离矩阵构建的分子拓扑图能够扑捉到原子320和原子块330之间存在的氢键作用，即，针对距离矩阵构建的分子拓扑图具有拥有捕获非共价键的能力，进而能够提升分子属性的识别准确度。
77.需要说明的是，本技术涉及的识别模型可以是图神经网络，但本技术不限于此。换言之，本技术涉及识别模型可以是任意一种基于深度学习或机器学习的用于识别的模型，本技术实施例对此不作具体限定。作为一个示例，所述图神经网络可以是信息传递图神经网络(message passing neural network，mpnn)作为另一示例，该识别模型包括但不限于：传统学习模型、集成学习模型或深度学习模型。可选的，传统学习模型包括但不限于：树模型(回归树)或逻辑回归(logistic regression，lr)模型；集成学习模型包括但不限于：梯
度提升算法的改进模型(xgboost)或随机森林模型；深度学习模型包括但不限于：长短期记忆网络(long short
‑
term memory，lstm)或神经网络。当然，在本技术的其他实施例中，也可以使用其他机器学习类的模型，本技术对此不作具体限定。
78.在一些实施例中，该分子表达式为简化分子线性输入规范(simplified molecular input line entry specification，smiles)表达式。其中，smiles是一种用ascii字符串明确描述分子结构的规范。
79.可选的，smiles表达式也可称为smiles字符串。
80.在一些实施例中，该分子的属性为吸收，分布代谢排泄毒性(absorption、distribution、metabolism、excretion、toxicity，admet)性质。
81.作为一个示例，该分子的属性可以是该分子的物理化学特征，包括但不限于：溶解性、渗透能力、稳定性等；可以是生化特征，包括但不限于：代谢过程、蛋白结合能力、转运(吸收和排出)等；还可以是和毒性特征，包括但不限于：清除率、半衰期、生物活性，药物间相互作用(drug
‑
drug interaction，ddi)等。作为另一示例，该分子的属性可以是热力学水溶性(thermo dynamic solubility)和动力学水溶性(kinetic solubility)；热力学水溶性是我们通常认为的化合物的溶解达到平衡后的溶解能力，动力学水溶性一般是将溶解在有机溶剂中的化合物加入到水溶液中再检测溶解性。当然，上述属性仅为本技术的示例，不应理解为对本技术的限制。
82.在一些实施例中，该分子中原子个数为n，n为正整数；其中，该s220可包括：针对n个原子中的第i个原子，计算该第i个原子与该n个原子中除该第i个原子之外的其他原子之间的距离，以得到该n个原子中的每一个原子的对应的n
‑
1个距离；基于该n个原子中的每一个原子的对应的n
‑
1个距离，得到该分子的距离矩阵；基于此，该s230可包括：基于该距离矩阵获取该分子的接触矩阵；其中，该接触矩阵中的任意一个数值用于表征n个原子中与该任意一个数值对应的两个原子之间的距离是否满足预设条件；基于该接触矩阵构建该分子拓扑图。
83.在一些实现方式中，基于该n个原子中的每一个原子的对应的n
‑
1个距离，构建n*n矩阵；将该n*n矩阵，确定为该距离矩阵。例如，将该第i个原子与该第i个原子之间的距离设置为预设值；基于该n个原子中的每一个原子的对应的n
‑
1个距离以及该预设值，构建n*n矩阵；将该n*n矩阵，确定为该距离矩阵。可选的，该预设值可以是0，也可以是满足所述预设条件的任意数值，本技术实施例对此不作具体限定。
84.换言之，针对每一个包括n个原子的分子，其均可基于分子中原子的三维坐标，得到一个n*n大小的距离矩阵。本实施例中，通过引入该第i个原子与该第i个原子之间的距离，在构建距离矩阵的过程中，可以使得n*n矩阵的n行和n列分别对应于该n个原子，进而，该n*n矩阵中的每一个数值可用于表征该一个数值所在的行对应的原子和所在的列对应的原子之间的距离，简化了距离矩阵的设计复杂度，进而，能够提升分子属性预测的识别速度。
85.在一些实现方式中，针对该距离矩阵中的任意一个数值，若该任意一个数值小于或等于预设阈值，将该任意一个数值修改为第一数值；若该任意一个数值大于该预设阈值，将该任意一个数值修改为第二数值；其中，该第一数值用于表征该任意一个数值对应的两个原子之间的距离满足该预设条件，该第二数值用于表征该任意一个数值对应的两个原子
之间不的距离满足该预设条件。
86.可选的，该预设阈值可以是该距离矩阵中的所有数值的平均值，或者可以是用户设定的数值，本技术对此不作具体限定。可选的，该第一数值可以是1，该第二数值可以为0，当然，在其他可替代实施例中，该第一数值和该第二数值也可以是其他数值，本技术对此不作具体限定。
87.换言之，在分子拓扑图构建流程中，包括以下三个步骤：
88.(1)、由分子的smiles表达式计算出分子三维结构坐标，由分子中原子的三维结构坐标计算，获得该分子的距离矩阵(distance matrix)。
89.(2)、根据预先设定的预设阈值(cutoff)，由该分子的距离矩阵，获得该分子的接触矩阵(contact matrix)。
90.(3)、基于该分子的接触矩阵(contact matrix)，构建该分子的分子拓扑图。
91.具体来说，可以使用rdkit等计算化学工具，由分子的smiles表达式计算出分子中原子的三维结构坐标。rdkit是一个用于化学信息学的开源工具包，具体地，通过调取rdkit由分子的smiles表达式计算出分子中原子的三维结构坐标。假设分子中原子个数为n，对n个原子两两计算距离，就可以得到一个n*n的距离矩阵。原子间的接触矩阵也是一个n*n的矩阵，如果两个原子间距离小于或等于预设阈值，将接触矩阵上对应的位置的值设为1；如果两个原子间距离大于预设阈值的话，将接触矩阵上对应的位置的值设为0。接着，可根据原子间的接触矩阵来构建分子拓扑图，具体而言，在接触矩阵中，如果两个原子对应的数值为1，说明两个原子间存在一条边；如果两个原子对应的数值为0，说明两个原子间没有边。
92.在一些实现方式中，针对该接触矩阵中任意一个数值，若该任意一个数值用于表征两个原子之间的距离满足预设条件，则连接该分子拓扑图中的该两个原子；若该任意一个数值表征两个原子之间的距离不满足预设条件，则不连接该分子拓扑图中该两个原子。
93.换言之，针对该接触矩阵中任意一个数值，若该任意一个数值用于表征两个原子之间的距离满足预设条件，则连接该分子拓扑图中的分别与该两个原子分别的两个顶点；若该任意一个数值表征两个原子之间的距离不满足预设条件，则不连接该分子拓扑图中的分别与该两个原子对应的顶点。
94.图7是本技术实施例提供的基于距离构建分子拓扑图的示例。
95.如图7所示，基于一个包括n个原子的分子，可基于分子的smiles表达式，得到一个n*n大小的距离矩阵，通过上述处理可得到一个n*n大小的接触矩阵，最终，可基于该n*n大小的接触矩阵得到该分子的分子拓扑图。
96.图8是本技术实施例提供的基于距离识别分子的属性的系统框架500的示例。
97.如图8所示，该系统框架500可包括图神经网络模型530以及与图神经网络模型530连接的全连接层540。其中，图神经网络模型530可参见上文中涉及的图神经网络模型130的描述，全连接层540可参见上文涉及的全连接层140的相关描述，为避免重复，此处不再赘述。如图8所示，分子510经过特征提取后，得到分子510的三维坐标561，基于该分子510的三维坐标561得到分子510的距离矩阵562，接着，基于分子510的距离矩阵562得到分子510的接触矩阵563；然后通过图神经网络模型530对基于接触矩阵563构建的分子拓扑图进行学习，并通过连接层输出分子510的属性550。当然，在其他可替代实施例中，分子510经过特征提取后，还得到分子510的共价键的属性520，该共价键的属性520可用于对基于接触矩阵
563构建的分子拓扑图进行补充或完善。例如，针对存在共价键但基于接触矩阵563构建的分子拓扑图中显示为未连接的两个原子，可以将其连接关系修改为连接。
98.图9是本技术实施例提供的训练识别模型的方法600的示意性流程图。需要说明的，本技术实施例提供的方案可通过任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
99.如图9所示，该发600可包括：
100.s610，获取已标注有属性的分子的分子表达式；
101.s620，基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
102.s630，基于该距离矩阵构建该分子的分子拓扑图；
103.s640，以该分子拓扑图以及该分子的属性为输入，训练识别模型。
104.作为示例，可以通过各种数据库收集已标注有属性的分子，进而基于分子的分子表达式获取该分子的分子拓扑图，最终以该分子拓扑图以及该分子的属性为输入，训练识别模型。可选的，该各种数据库可以是chembl数据库。chembl数据库是一个大型的、开放访问的药物发现数据库，旨在收集药物研究和开发过程中的药物化学数据和知识。例如，通过chembl数据库搜集的水溶性数据作为训练数据，其中，动力学水溶性数据有8w条，热力学水溶性数据有1.5w条。在训练过程中，通过前向计算，获得的分子的属性的预测值(一个分子对应一个水溶性数值，水溶性数值单位：log(mol/l))与真实值计算差值，并使用均方根误差(root mean square error，rmse)作为模型的损失函数(loss function)；通过后向计算(back forward)，计算每一个网络层的梯度，以及使用自适应矩估计(adaptive moment estimation，adam)算法更新或优化识别模型的参数。
105.作为示例，识别模型的参数为图神经网络模型，其部分超参如表1所示。
106.表1
107.学习率(learning rate)0.0001批量大小(batch size)128权值衰减(weight decay)0.000001时期(epoch)200丢弃(dropout)0.1
108.下面对表1中涉及的术语进行说明。
109.学习率(learning rate)：通过设置学习率控制参数的更新速度，学习速率设置过小，会极大降低收敛速度，增加训练时间；学习率太大，可能导致参数在最优解两侧来回振荡。
110.批量大小(batch size)：即一次训练所选取的样本数。批量大小的取值决定了深度学习训练过程中的完成每个时期(epoch)所需的时间和每次迭代(iteration)之间梯度的平滑程度。对于一个大小为n的训练集，如果每个时期中批量大小的采样方法采用最常规
的n个样本每个都采样一次，设批量大小为b，那么每个时期所需的迭代次数(包括正向和反向)为n/b，因此完成每个时期所需的时间大致也随着迭代次数的增加而增加。批量大小的取值过小，花费时间多，同时梯度震荡严重，不利于收敛；批量大小的取值过大，不同批量大小的梯度方向没有任何变化，容易陷入局部极小值。本技术实施例对批量大小的取值不作具体限定，例如，可以根据实际需求或场景确定合适的批量大小。当然，在小样本数的数据库中，不采用批量大小是可行的，而且效果也很好。但是针对大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸，此时可采用批量大小进行网络的训练。
111.权值衰减(weight decay)：位于在正则项(regularization)前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
112.时期(epoch)：指代所有的数据送入网络中完成一次前向计算及反向传播的过程。
113.丢弃(dropout)：指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。换言之，在前向传播时，让某个神经元的激活值以一定的概率p停止工作，这样可以降低对某些局部的特征的依赖，进而使模型的泛化性更强。
114.在一些实施例中，该分子中原子个数为n，n为正整数；其中，该s620可包括：针对n个原子中的第i个原子，计算该第i个原子与该n个原子中除该第i个原子之外的其他原子之间的距离，以得到该n个原子中的每一个原子的对应的n
‑
1个距离；基于该n个原子中的每一个原子的对应的n
‑
1个距离，得到该分子的距离矩阵；基于此，该s630可包括：基于该距离矩阵获取该分子的接触矩阵；其中，该接触矩阵中的任意一个数值用于表征n个原子中与该任意一个数值对应的两个原子之间的距离是否满足预设条件；基于该接触矩阵构建该分子拓扑图。
115.在一些实现方式中，基于该n个原子中的每一个原子的对应的n
‑
1个距离，构建n*n矩阵；将该n*n矩阵，确定为该距离矩阵。
116.在一些实现方式中，针对该距离矩阵中的任意一个数值，若该任意一个数值小于或等于预设阈值，将该任意一个数值修改为第一数值；若该任意一个数值大于该预设阈值，将该任意一个数值修改为第二数值；其中，该第一数值用于表征该任意一个数值对应的两个原子之间的距离满足该预设条件，该第二数值用于表征该任意一个数值对应的两个原子之间不的距离满足该预设条件。
117.在一些实施例中，针对该接触矩阵中任意一个数值，若该任意一个数值用于表征两个原子之间的距离满足预设条件，则连接该分子拓扑图中的该两个原子；若该任意一个数值表征两个原子之间的距离不满足预设条件，则不连接该分子拓扑图中该两个原子。
118.在一些实施例中，该分子表达式为简化分子线性输入规范smiles表达式，该分子的属性为吸收，分布代谢排泄毒性admet性质。
119.需要说明的是，该方法600中的步骤s610可参见方法200中的步骤s210，为避免重复，此处不再赘述。
120.以上结合附图详细描述了本技术的优选实施方式，但是，本技术并不限于上述实施方式中的具体细节，在本技术的技术构思范围内，可以对本技术的技术方案进行多种简单变型，这些简单变型均属于本技术的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要
的重复，本技术对各种可能的组合方式不再另行说明。又例如，本技术的各种不同的实施方式之间也可以进行任意组合，只要其不违背本技术的思想，其同样应当视为本技术所公开的内容。
121.还应理解，在本技术的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
122.上文对本技术实施例提供的方法进行了说明，下面对本技术实施例提供的装置进行说明。
123.图10是本技术实施例提供的用于识别分子属性的装置700的示意性框图。
124.如图10所示，该用于识别分子属性的装置700可包括：
125.获取单元710，用于：
126.获取分子的分子表达式；
127.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
128.构建单元720，用于基于该距离矩阵构建该分子的分子拓扑图；
129.识别单元730，用于以该分子拓扑图为输入，利用识别模型识别该分子的属性。
130.在一些实施例中，该分子中原子个数为n，n为正整数；
131.其中，该获取单元720具体用于：
132.针对n个原子中的第i个原子，计算该第i个原子与该n个原子中除该第i个原子之外的其他原子之间的距离，以得到该n个原子中的每一个原子的对应的n
‑
1个距离；
133.基于该n个原子中的每一个原子的对应的n
‑
1个距离，得到该分子的距离矩阵；该构建单元720具体用于：
134.基于该距离矩阵获取该分子的接触矩阵；其中，该接触矩阵中的任意一个数值用于表征n个原子中与该任意一个数值对应的两个原子之间的距离是否满足预设条件；
135.基于该接触矩阵构建该分子拓扑图。
136.在一些实施例中，该获取单元720具体用于：
137.基于该n个原子中的每一个原子的对应的n
‑
1个距离，构建n*n矩阵；
138.将该n*n矩阵，确定为该距离矩阵。
139.在一些实施例中，该获取单元730具体用于：
140.针对该距离矩阵中的任意一个数值，若该任意一个数值小于或等于预设阈值，将该任意一个数值修改为第一数值；若该任意一个数值大于该预设阈值，将该任意一个数值修改为第二数值；
141.其中，该第一数值用于表征该任意一个数值对应的两个原子之间的距离满足该预设条件，该第二数值用于表征该任意一个数值对应的两个原子之间不的距离满足该预设条件。
142.在一些实施例中，该获取单元730具体用于：
143.针对该接触矩阵中任意一个数值，若该任意一个数值用于表征两个原子之间的距离满足预设条件，则连接该分子拓扑图中的该两个原子；若该任意一个数值表征两个原子之间的距离不满足预设条件，则不连接该分子拓扑图中该两个原子。
144.在一些实施例中，该分子表达式为简化分子线性输入规范smiles表达式，该分子的属性为吸收，分布代谢排泄毒性admet性质。
145.图11是本技术实施例提供的用于训练识别模型的装置800的示意性框图。
146.如图10所示，该用于识别分子属性的装置800可包括：
147.获取单元810，用于：
148.获取已标注有属性的分子的分子表达式；
149.基于该分子表达式，获取该分子的距离矩阵；其中，该距离矩阵用于表征该分子中的原子的三维结构坐标之间的距离；
150.构建单元820，用于基于该距离矩阵构建该分子的分子拓扑图；
151.训练单元830，用于以该分子拓扑图以及该分子的属性为输入，训练识别模型。
152.在一些实施例中，该分子中原子个数为n，n为正整数；
153.其中，该获取单元810具体用于：
154.针对n个原子中的第i个原子，计算该第i个原子与该n个原子中除该第i个原子之外的其他原子之间的距离，以得到该n个原子中的每一个原子的对应的n
‑
1个距离；
155.基于该n个原子中的每一个原子的对应的n
‑
1个距离，得到该分子的距离矩阵；该构建单元820具体用于：
156.基于该距离矩阵获取该分子的接触矩阵；其中，该接触矩阵中的任意一个数值用于表征n个原子中与该任意一个数值对应的两个原子之间的距离是否满足预设条件；
157.基于该接触矩阵构建该分子拓扑图。
158.在一些实施例中，该获取单元820具体用于：
159.基于该n个原子中的每一个原子的对应的n
‑
1个距离，构建n*n矩阵；
160.将该n*n矩阵，确定为该距离矩阵。
161.在一些实施例中，该获取单元830具体用于：
162.针对该距离矩阵中的任意一个数值，若该任意一个数值小于或等于预设阈值，将该任意一个数值修改为第一数值；若该任意一个数值大于该预设阈值，将该任意一个数值修改为第二数值；
163.其中，该第一数值用于表征该任意一个数值对应的两个原子之间的距离满足该预设条件，该第二数值用于表征该任意一个数值对应的两个原子之间不的距离满足该预设条件。
164.在一些实施例中，该获取单元830具体用于：
165.针对该接触矩阵中任意一个数值，若该任意一个数值用于表征两个原子之间的距离满足预设条件，则连接该分子拓扑图中的该两个原子；若该任意一个数值表征两个原子之间的距离不满足预设条件，则不连接该分子拓扑图中该两个原子。
166.在一些实施例中，该分子表达式为简化分子线性输入规范smiles表达式，该分子的属性为吸收，分布代谢排泄毒性admet性质。
167.应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，用于识别分子属性的装置700可以对应于执行本技术实施例的方法200中的相应主体，并且用于识别分子属性的装置700中的各个单元分别为了实现方法200中的相应流程；类似的，用于训练识别模型的装置800可以对应于执行本申
请实施例的方法600中的相应主体，并且用于训练识别模型的装置800中的各个单元分别为了实现方法600中的相应流程，为了简洁，在此不再赘述。
168.还应当理解，本技术实施例涉及的用于识别分子属性的装置700或用于训练识别模型的装置800中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，该用于识别分子属性的装置700或用于训练识别模型的装置800也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本技术的另一个实施例，可以通过在包括例如中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造本技术实施例涉及的装置700和装置800，以分别来实现本技术实施例的识别分子属性的方法和训练识别模型的方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本技术实施例的相应方法。
169.换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本技术实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本技术实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。
170.图12是本技术实施例提供的电子设备900的示意结构图。
171.如图12所示，该电子设备900至少包括处理器910以及计算机可读存储介质920。其中，处理器910以及计算机可读存储介质920可通过总线或者其它方式连接。计算机可读存储介质920用于存储计算机程序921，计算机程序921包括计算机指令，处理器910用于执行计算机可读存储介质920存储的计算机指令。处理器910是电子设备900的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
172.作为示例，处理器910也可称为中央处理器(central processing unit，cpu)。处理器910可以包括但不限于：通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
173.作为示例，计算机可读存储介质920可以是高速ram存储器，也可以是非不稳定的存储器(non
‑
volatilememory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器910的计算机可读存储介质。具体而言，计算机可读存储介质920包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器
(read
‑
only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。
174.如图12所示，该电子设备900还可以包括收发器930。
175.其中，处理器910可以控制该收发器930与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器930可以包括发射机和接收机。收发器930还可以进一步包括天线，天线的数量可以为一个或多个。
176.应当理解，该通信设备900中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。
177.在一种实现方式中，该电子设备900可以是任一具有数据处理能力的电子设备；该计算机可读存储介质920中存储有第一计算机指令；由处理器910加载并执行计算机可读存储介质920中存放的第一计算机指令，以实现图1所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质920中的第一计算机指令由处理器910加载并执行相应步骤，为避免重复，此处不再赘述。
178.根据本技术的另一方面，本技术实施例还提供了一种计算机可读存储介质(memory)，计算机可读存储介质是电子设备900中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质920。可以理解的是，此处的计算机可读存储介质920既可以包括电子设备900中的内置存储介质，当然也可以包括电子设备900所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备900的操作系统。并且，在该存储空间中还存放了适于被处理器910加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序921(包括程序代码)。
179.根据本技术的另一方面，本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序921。此时，数据处理设备900可以是计算机，处理器910从计算机可读存储介质920读取该计算机指令，处理器910执行该计算机指令，使得该计算机执行上述各种可选方式中提供的识别分子属性的方法或训练识别模型的方法。
180.换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本技术实施例的流程或实现本技术实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，dsl))或无线(例如红外、无线、微
波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
181.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
182.最后需要说明的是，以上内容，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶阁焰;刘伟;黄俊洲
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。