本发明涉及人工智能,尤其涉及一种分子文件信息处理方法、系统、终端及计算机可读存储介质。
背景技术:
1、在将计算机技术应用到化学和生物领域时,研究人员通常需要处理大量的分子文件信息,以进行深入的分析和建模。这些分子文件信息包含了有关分子的关键信息,包括其结构、性质等。
2、近年来,随着深度学习和人工智能技术的快速发展,研究人员开始探索如何利用这些技术来更好地理解和预测化学反应中不同分子之间的相互作用以及反应产率。具体而言,深度学习已经应用于分子领域,以推断化学反应中相关分子(如配体、催化剂等)与反应产率之间的关系。这种应用包括对分子特征的学习,以了解它们如何影响反应的结果。
3、然而,以往的研究在这一领域存在一些限制,主要包括:
4、二维结构数据:以往的研究主要集中在处理分子的二维结构数据,包括原子之间的连接关系和特征向量等;虽然这些数据对于理解分子的结构和性质非常重要,但它们往往无法提供关于分子的三维结构和原子坐标的详细信息,这在某些情况下可能限制了对反应机理的深入理解。
5、手动微调:以往的研究中,研究人员通常需要进行手动微调,以生成不同类型的反应数据集,这种过程耗时且容易出现人为误差,降低了研究的效率。
6、例如,有人研究在实验中进行了反应相关分子数据的排列,以生成包含分子二维信息图的反应数据集,这一过程需要研究人员的干预和手动操作,可能会引入主观性和不一致性,限制了研究的可重复性和扩展性。
7、因此,现有技术还有待于改进和发展。
技术实现思路
1、本发明的主要目的在于提供一种分子文件信息处理方法、系统、终端及计算机可读存储介质,旨在解决现有技术中利用分子数据对化学反应进行表征学习的现有的数据处理方法普遍是利用分子的二维图结构,限制了对反应机理的深入理解,导致分子研究的效率和精确度不高的问题。
2、为实现上述目的,本发明提供一种分子文件信息处理方法,所述分子文件信息处理方法包括如下步骤:
3、创建反应板类和反应类,根据反应分子的类别构建并生成不同反应条件分子的化学反应;
4、读取目标文件夹的分子文件数据,每个所述分子文件数据包括多个sdf文件,读取每个sdf文件,提取分子的结构信息;
5、在三维上,按顺序读取sdf文件内指定区域内的文本,并进行分割,提取出分子中每个原子的三维坐标以及原子的原子序数,得到三维结构信息;
6、在二维上,将sdf文件转化为smiles表达式,并提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息;
7、将所述三维结构信息和所述二维结构信息进行拼接,得到二维和三维分子数据;
8、搜索生成的反应板得到每个反应中所包含的分子,根据反应板对二维和三维分子数据进行组合排列,得到二维和三维分子信息的反应数据;
9、读取所述分子文件数据中每个反应的实际产率,将实际产率添加到反应数据中,并对反应数据进行清洗,将实际产率为0的反应从数据集中去除,得到目标数据集。
10、可选地,所述的分子文件信息处理方法,其中,每个反应包括所有的反应分子类别,所述反应分子类别包括卤化物、催化剂、配体和添加剂,通过排列组合不同类分子生成不同的化学反应。
11、可选地,所述的分子文件信息处理方法,其中,所述读取每个sdf文件具体为通过python的rdkit库读取每个sdf文件。
12、可选地,所述的分子文件信息处理方法,其中,所述在三维上,按顺序读取sdf文件内指定区域内的文本,并进行分割,提取出分子中每个原子的三维坐标以及原子的原子序数,得到三维结构信息,之后还包括:
13、将所述三维结构信息转化为pytorch_geometric库能够直接读取的data格式。
14、可选地,所述的分子文件信息处理方法,其中,所述在二维上,将sdf文件转化为smiles表达式,并提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息,具体为:
15、在二维上,利用rdkit库自带的chem.moltosmiles函数先将sdf文件转化为smiles表达式,再利用torch_geometric库提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息。
16、可选地,所述的分子文件信息处理方法,其中,所述在二维上,将sdf文件转化为smiles表达式,并提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息,之后还包括:
17、将所述二维结构信息转化为pytorch_geometric库能够直接读取的data格式。
18、可选地,所述的分子文件信息处理方法,其中,所述目标数据集为二维和三维分子反应数据集。
19、此外,为实现上述目的,本发明还提供一种分子文件信息处理系统,其中,所述分子文件信息处理系统包括:
20、化学反应构建模块,用于创建反应板类和反应类,根据反应分子的类别构建并生成不同反应条件分子的化学反应;
21、结构信息提取模块,用于读取目标文件夹的分子文件数据,每个所述分子文件数据包括多个sdf文件,读取每个sdf文件,提取分子的结构信息;
22、三维结构信息提取模块,用于在三维上,按顺序读取sdf文件内指定区域内的文本,并进行分割,提取出分子中每个原子的三维坐标以及原子的原子序数,得到三维结构信息;
23、二维结构信息提取模块,用于在二维上,将sdf文件转化为smiles表达式,并提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息;
24、结构信息拼接模块,用于将所述三维结构信息和所述二维结构信息进行拼接,得到二维和三维分子数据;
25、反应数据获取模块,用于搜索生成的反应板得到每个反应中所包含的分子,根据反应板对二维和三维分子数据进行组合排列,得到二维和三维分子信息的反应数据;
26、数据集处理模块,用于读取所述分子文件数据中每个反应的实际产率,将实际产率添加到反应数据中,并对反应数据进行清洗,将实际产率为0的反应从数据集中去除,得到目标数据集。
27、此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分子文件信息处理程序,所述分子文件信息处理程序被所述处理器执行时实现如上所述的分子文件信息处理方法的步骤。
28、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有分子文件信息处理程序,所述分子文件信息处理程序被处理器执行时实现如上所述的分子文件信息处理方法的步骤。
29、本发明中,创建反应板类和反应类,根据反应分子的类别构建并生成不同反应条件分子的化学反应;读取目标文件夹的分子文件数据,每个所述分子文件数据包括多个sdf文件,读取每个sdf文件,提取分子的结构信息;在三维上,按顺序读取sdf文件内指定区域内的文本,并进行分割,提取出分子中每个原子的三维坐标以及原子的原子序数,得到三维结构信息;在二维上,将sdf文件转化为smiles表达式,并提取出原子属性向量、原子之间的连接关系和边的特征向量,得到二维结构信息;将所述三维结构信息和所述二维结构信息进行拼接,得到二维和三维分子数据;搜索生成的反应板得到每个反应中所包含的分子,根据反应板对二维和三维分子数据进行组合排列,得到二维和三维分子信息的反应数据;读取所述分子文件数据中每个反应的实际产率,将实际产率添加到反应数据中,并对反应数据进行清洗,将实际产率为0的反应从数据集中去除,得到目标数据集。本发明对分子文件信息进行处理,生成包含二维和三维结构信息的条件分子的反应数据集,将两种维度信息应用于深度学习对反应产率进行预测,提高了分子研究的效率和精确度,为深度学习提供更多的数据支持,以更好地理解和预测化学反应中不同分子之间的相互作用和反应结果。