本发明涉及通用人工智能和数据处理,具体涉及一种基于人工智能(ai)智能体处理药物的分子数据的系统和方法。
背景技术:
1、新药研发是一项极具挑战性的任务,不仅需要考虑药物对靶点的生物活性和选择性,还需要考虑药物在人体内的吸收、分布、代谢、排泄和毒性(admet)等性质。经过多年的新药研发,小分子创新药领域已经积累了大量的数据,覆盖各种分子结构、活性和admet等性质。
2、药物的分子数据是指化合物的化学结构、物理性质、生物活性等方面的信息。例如,化学结构提供了化合物的二维和三维构象;物理性质包括熔点、沸点、溶解度等参数;生物活性数据记录了化合物对特定生物靶点的作用效果,同时还有药代动力学和毒性数据。所有这些信息共同构成了一个全面且复杂的数据集,为药物设计和筛选提供了坚实的基础。
3、一方面,通过对这类分子大数据中的定量构效关系(qsar)研究,新药研发人员可以寻找到合适的苗头或先导化合物。另一方面,通过对海量药物的分子数据的分析,科研工作者可以调整现有化合物的结构,优化admet性质。因此,分子大数据会成为药物研发的重要助力,有望成为提升药物研发效率和成功率的关键。
4、考虑到分子大数据的重要性,如何处理这类数据也成为近年来关注的焦点。药物的分子数据处理包含对分子信息的挖掘、清洗、数据库导入导出、搜索、转换和分析等模块。随着人工智能和大数据技术的发展,上述的这些药物的分子数据处理模块都可以通过深度神经网络或其他先进的算法来实现。例如,分子信息的挖掘可以通过联合表格提取和内容识别的ai模型进行专利或文献的信息提取;python库中的pandas可以用来进行数据读写、归一化、去重、合并和拆分等操作,实现数据清洗;sql语言能够实现药物的分子数据的快速导入和导出。
5、尽管分子大数据促进了新药研发,但其数据规模相比计算机视觉和自然语言处理的数据量还是有很大差距,数据规模限制了各种生成模型和判别模型在新药研发中的应用。湿实验研发人员在工作的过程中会产生大量的有价值数据,湿实验研发人员通常指的是在实验室环境中直接与液体样本、化学试剂或生物材料打交道的技术人员等。湿实验研发人员主要负责进行生物学、生物化学、化学、药理学等领域的实验研究和数据收集。
6、如果湿实验研发人员可以快速地对这类数据进行处理,新药研发的药物的分子数据规模能够快速提升,从而进一步促进新药研发的效率和数字化转型。然而湿实验研发人员大多没有ai、编程和数据库相关的背景,这阻碍了他们灵活地应用上述药物的分子数据处理技术。因此,需要加强跨学科合作,提高药物的分子数据的质量和规模以及处理能力,从而促进新药研发的效率。
7、上述对背景技术的陈述仅是为了方便对本发明技术方案(使用的技术手段、解决的技术问题以及产生的技术效果等方面)的深入理解,而不应当被视为承认或以任何形式暗示该消息构成已为本领域技术人员所公知的现有技术。
技术实现思路
1、针对现有技术中存在的缺陷,本发明提出了一种新颖的基于ai智能体处理药物的分子数据的系统和方法,ai智能体包括大语言模型、提示词、记忆模块和工具库模块。在用户向此系统输入自然语言的药物的分子数据处理的任务描述并上传任意形式的分子表示之后,ai智能体可以基于大语言模型分析用户需求、制定计划、调用内部工具、执行计划,并利用精心设计的提示词工程对任务执行效果进行分析,最终实现端到端的药物的分子数据多样化处理,多样化处理包括挖掘、清洗、数据库导入导出、搜索、转换和分析等。
2、根据本发明的实施方案,提供了一种基于ai智能体处理药物的分子数据的方法,其包括:构建ai智能体,所述ai智能体包括大语言模型、提示词模块、工具库模块、记忆模块和输出解析器;将用户的自然语言的任务描述和待处理的药物的分子数据输入到构建的ai智能体中,以理解用户意图并分析分子数据的性质;根据用户意图和分子数据的性质,利用大语言模型和提示词模块中包括的先验知识进行自主推理,以生成全局操作序列;对全局操作序列执行自洽循环,以利用工具库模块对药物的分子数据进行处理;输出药物的分子数据的最终处理结果并呈现给用户。
3、优选地,所述大语言模型是预先训练的深度学习模型,其包括非开源大语言模型和/或开源大语言模型,所述大语言模型配置为对用户的自然语言进行理解,并分析用户意图;所述提示词模块配置为辅助大语言模型理解和分析用户意图并且结合记忆模块来确定分子数据处理任务;所述工具库模块配置为整合用于处理药物的分子数据的工具,并且包括对用于处理药物的分子数据的工具的文字描述;所述记忆模块配置为存储与子任务相关的中间状态信息和用户交互的历史信息,用于增强对分子数据处理任务的感知、决策和行动;所述输出解析器配置为对大语言模型生成的输出进行后处理,以确保结果符合预期格式或标准。
4、优选地,对全局操作序列执行自洽循环包括:思考子步骤,其根据全局操作序列来确定任务类型和子任务的执行目标,所述任务类型包括通过单个子任务完成的药物的分子数据处理任务和通过多个子任务完成的药物的分子数据处理任务;计划子步骤,其结合工具库模块中对工具的文字描述来确定子任务的动作序列;批判子步骤,其对子任务的动作序列进行评估,结合记忆模块存储的信息来确定潜在的问题,并修正子任务的动作序列;行动子步骤,其利用工具库模块来执行修正后的子任务的动作序列;观察子步骤,其根据思考子步骤的结果和行动子步骤的结果,结合记忆模块和提示词模块的历史信息以及工具库模块中对工具的文字描述来确定任务的进展情况。
5、优选地,对全局操作序列执行自洽循环进一步包括:当思考子步骤确定出的任务类型是通过单个子任务完成的药物的分子数据处理任务时,观察子步骤输出药物的分子数据的最终处理结果;当思考子步骤确定出的任务类型是通过多个子任务完成的药物的分子数据处理任务时,自动地进入循环子步骤,直到多个子任务完成为止并输出药物的分子数据的最终处理结果;所述循环子步骤配置为基于思考子步骤的结果和观察子步骤的结果来继续执行新的子任务,其中,执行新的子任务包括思考子步骤、计划子步骤、批判子步骤、行动子步骤和观察子步骤。
6、优选地,所述提示词模块配置为:包括对药物的分子数据进行处理的任务的描述;包括对药物的分子数据进行处理的任务说明以及复杂任务的调用工具流程的先验知识;利用层次化的提示词来指导大语言模型进行逐步学习。
7、优选地,所述工具库模块包括底层算法的应用程序编程接口;所述工具库模块进一步包括用于处理药物的分子数据的数据挖掘工具、数据清洗工具、数据库导入导出工具、数据搜索工具、数据转换工具和数据分析工具的至少一种。
8、优选地,所述记忆模块包括长期记忆组件和短期记忆组件;所述长期记忆组件配置为存储与用户交互历史相关的数据;所述短期记忆组件配置为存储与子任务相关的中间状态信息,用于在自洽循环的批判子步骤中确定潜在的问题。
9、优选地,所述用户的自然语言的任务描述包括用于药物的分子数据的提取、存储、挖掘、预测、可视化和搜索的操作的至少一种;所述分子数据包括分子结构数据以及包含分子结构数据和分子性质数据的文件;所述分子结构数据包括分子结构的一维表示、二维表示和三维表示的至少一种,所述分子性质数据包括药物的活性、吸收、分布、代谢、排泄和毒性的性质的至少一种;其中,分子结构的一维表示包括smiles格式的文件;分子结构的二维表示包括jpg、png的分子图片或mol、sdf的原子和化学键位置的分子文件;分子数据的三维表示包括pdb、cif和mol2的分子文件;包含分子结构数据和分子性质数据的文件包括列表形式文件和数据库文件,列表形式文件包括csv和xlsx文件,数据库文件包括sql类文件。
10、优选地,所述ai智能体的最终处理结果包括:分子结构的一维表示、二维表示和三维表示、包含分子结构数据和分子性质数据的文件、药物分子的qsar模型的至少一种。
11、根据本发明的实施方案,提供过了一种基于ai智能体处理药物的分子数据的系统,其包括:构建模块,其配置为构建ai智能体,所述ai智能体包括大语言模型、提示词模块、工具库模块、记忆模块和输出解析器;用户意图理解模块,其配置为将用户的自然语言的任务描述和待处理的药物的分子数据输入到构建的ai智能体中,以理解用户意图并分析分子数据的性质;自主推理模块,其配置为根据用户意图和分子数据的性质,利用大语言模型和提示词模块中包括的先验知识进行自主推理,以生成全局操作序列;自洽循环模块,其配置为对全局操作序列执行自洽循环,以利用工具库模块对药物的分子数据进行处理;输出模块,其配置为输出药物的分子数据的最终处理结果并呈现给用户。
12、根据本发明的实施方案,提供了一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现以下步骤:构建ai智能体,所述ai智能体包括大语言模型、提示词模块、工具库模块、记忆模块和输出解析器;将用户的自然语言的任务描述和待处理的药物的分子数据输入到构建的ai智能体中,以理解用户意图并分析分子数据的性质;根据用户意图和分子数据的性质,利用大语言模型和提示词模块中包括的先验知识进行自主推理,以生成全局操作序列;对全局操作序列执行自洽循环,以利用工具库模块对药物的分子数据进行处理;输出药物的分子数据的最终处理结果并呈现给用户。
13、本发明采取以上技术方案,其具有以下有益效果:
14、1.自动化和高效性:通过利用ai智能体来自动地处理和分析大量的药物的分子数据,减少了人工参与的需求,提高了数据处理的速度和效率。这种自动化处理不仅节省了时间,还有助于减少人为的错误,确保数据分析的一致性和可靠性,满足湿实验研发人员对药物的分子数据处理的日益增长需求。
15、2.通用性:通过构建首个ai智能体专用分子数据工具库,可以处理各种分子数据和文件。该分子数据工具库包含处理各种分子数据和文件的相关算法和软件,促进了ai智能体在全局和局部推理决策的过程中大语言模型作为决策模块与工具库的协调性。该分子数据工具库不仅促进了多种分子数据处理过程的顺利运行,还确保了多种分子数据类型作为输入和输出的高度兼容性。
16、3.学习能力强:通过利用机器学习和深度学习技术,可以从数据中学习并不断优化其分析算法。
17、4.跨学科整合:将软件、算法开发与生物医学研究人员的需求相结合,去除了软件和算法开发者和湿实验研发人员之间对数据处理的障碍,打破了传统学科之间的界限。这促进了不同领域专家之间的合作,使得计算机技术和生物学知识能够共同进步。
18、5.可扩展性和模块化:随着ai技术的不断发展,允许容易地添加新的功能模块和更新现有算法,确保了系统的长期适用性和灵活性。
19、6.推动药物发现:通过快速准确地处理药物的分子数据,促进了分子大数据赋能新药研发的持续进展。
20、根据本发明的实施方案的基于ai智能体处理药物的分子数据的系统和方法可以让ai智能体学会使用算法和软件,满足湿实验研发人员对药物的分子数据处理的日益增长需求,去除软件和算法开发者和湿实验研发人员之间对数据处理的障碍,且系统时刻保持扩展性,促进分子大数据赋能新药研发的持续进展。