本发明涉及多模态数据融合和自监督学习,具体涉及一种多源异构模态双通路融合交互的药物不良反应预测方法及系统。
背景技术:
1、药物不良反应(adverse drug reactions, 简称adrs)是指在确保药品质量合格、严格遵循药物推荐的正常法与用量条件下,患者所遭遇的非预期且不利于健康的反应。在药物开发周期中,尽早发现潜在的不良反应,不仅可以显著提高药物的安全性,还能有效降低研发风险与成本。
2、随着生物医学信息的丰富,使用计算机辅助预测adrs的研究已取得显著进展。在adrs预测中,药物特征的提取与表征是模型性能的关键。常用的药物特征主要分为两类:(1)药物内在信息:包括药物化学子结构、分子描述符等,这些特征能够直接反映药物的化学性质和生物学活性。(2)药物相关实体信息:如药物-靶点蛋白相互作用、药物适应症和药物途径等,这些特征揭示了药物在生物系统中的功能与潜在机制。药物特征范围从基础的化学结构逐步扩到到包含药物-药物相似度,药物-疾病关联等多源信息。
3、计算机辅助方法主要分为基于传统机器学习和深度学习。基于传统机器学习的方法通常依赖于多种药物特征,并通过构建特征之间的相关性或相似性来预测不良反应。虽然传统机器学习方法在adrs预测中取得了一定成果,但其对先验知识的依赖、特征提取的局限性以及泛化能力的不足限制了其进一步发展。相比之下,深度学习技术具有自动特征提取和复杂关系建模等能力,展现出显著的优势,逐渐成为adrs预测的研究热点。现有基于深度学习的adrs预测方法大多数依赖于药物关联实体信息,忽略了药物的内在特征,并且容易面临外源性数据缺失所导致的冷启动困境。例如,中国专利文献cn115512857a提出的一种基于元路径图神经网络的药物不良反应预测模型需要使用药物、蛋白质、不良反应和疾病四种实体来构建异构信息网络。这导致了这些方法更倾向于挖掘已知药物的潜在未知不良反应,而非准确预测全新药物的风险。在药物发现的初始阶段,候选药物的先验知识通常相对稀缺,研究者往往只能依赖有限的化学结构属性来构建预测模型,这使得模型的性能受到极大限制。
4、同时,在多模态融合策略方面,现有的方法普遍存在静态融合缺陷。例如,文献《toward unified ai drug discovery with multimodal knowledge》[j]. yizhen luo,xing yi liu, et al.health data science. 2024.02.23.提出一种深度学习框架 kedd用于预测 adrs,该框架通过将药物、蛋白质、结构化知识与非结构化知识这四种模态特征进行拼接(基于各模态对预测的贡献相等的假设)实现融合,忽略了不同模态间固有的功能异质性。
5、多模态融合技术作为人工智能领域的关键突破方向,其核心目标在于实现异构数据特征的互补性整合与冗余性抑制。当前研究在跨模态交互机制设计中面临两大核心挑战:(1)静态融合方式的局限性:传统方法(如直接拼接、均值融合或加权求和)普遍采用固定权重分配策略。这些静态融合方式导致关键信息在融合过程中被稀释,尤其难以处理序列模态(如文本、时间序列)与图模态(如分子结构、社交网络)间的表征差异。例如,中国专利文献cn119091974a提出的基于序列模态和图模态的药物靶标亲和力预测方法的方案中,使用相加融合方式融合两种模态的特征,无法动态适配不同模态的特征重要性层级。(2)单一融合机制的局限性:序列数据与图模态数据在表征形式、特征维度以及内在语义表达上存在显著差异。现有的方法多采用单一的融合策略(如仅依赖注意力机制或张量拼接),往往无法充分捕捉模态间的高阶交互关系和深层次语义关联,导致融合后的特征表达能力受限,难以适应不同任务场景下模态特征的重要性变化。如中国专利文献cn115878983a提出的基于多层次交互融合的多模态数据场景识别方法的方案中,对序列数据和视频模态数据进行交互融合,但方案使用多层多头的自注意力网络和双阶段注意力模型导致计算复杂度显著增加,引入大量可学习参数导致该方法难以满足毫秒级响应需求。
6、综上,现有技术公开的药物不良反应的预测方法无法动态捕捉药物化学结构中的不同模态的特征,也无法充分捕捉不同模态特征的潜在语义信息并进行深层次的融合与交互,预测全面性、准确性都受到较大的限制。因此亟待研发一种仅基于药物内在信息且具有创新性的药物不同模态特征融合交互机制实现adrs预测方法。
技术实现思路
1、本发明要解决的技术问题是:提供一种多源异构模态双通路融合交互的药物不良反应预测方法与系统。其目的在于采用一种全新的双通路融合交互机制,动态捕捉并融合药物化学结构中的局部官能团和全局特征。通过自监督学习捕捉不良反应类别的潜在语义信息,从而实现协同预测adrs概率。
2、为了解决上述技术问题,本发明采用以下技术方案:
3、第一方面,本发明提供一种多源异构模态双通路融合交互的药物不良反应预测方法,具体包括如下步骤:
4、s1、多源异构模态特征提取与表征优化,面向多源异构数据构建特征工程;药物相关的多源异构数据包括:药物smiles序列数据、药物分子指纹数据和药物分子结构图数据;方案中,药物smiles序列和药物分子指纹为药物相关的序列数据模态;药物的分子结构图为药物相关的图数据模态。
5、s2、双通路融合交互协同预测,具体包括:
6、s21、构建双通路:构建门控深度卷积的空间融合模块(gated depthwiseconvolution with spatial fusion,简称为gdconv-sf模块)作为第一通路,其目的是为了实现空间上的局部特征融合;构建均值策略作为第二通路,其目的是为了减少噪声和冗余信息的影响;
7、s22、双通路交互:先对经过第一通路融合后的特征进行自注意力计算,其目的是为了建立特征内部的长程依赖关系,增强表征能力;然后采用两个单向交叉注意力机制用于捕捉经过不同通路融合后的多源异构模态特征之间的注意力权重和反馈信息,实现模态间的交互;
8、s23、协同预测:将s22获得的模态特征进行层归一化与多层感知机层处理,结果作为多源异构模态融合交互后的编码;通过自监督学习捕捉药物不良反应类别的潜在语义信息,构建药物不良反应嵌入矩阵,然后与融合交互后的编码结果进行匹配,最终输出预测的概率。
9、进一步地,s21中的门控深度卷积的空间融合模块(gdconv-sf模块)包括以下结构:
10、第一线性层,用于对输入特征进行初步线性变换,其目的是为了后续深度卷积层提供更精确的特征表达;
11、特征分裂层,用于沿特征维度将线性变换后的特征拆分为两个子特征块,其目的是为了使得模型能够分别处理不同的特征表示,从而捕捉更细粒度的局部信息;
12、深度卷积层,用于对其中一个子特征块进行深度卷积操作,其目的是为了捕捉不同模态特征之间的局部关联性,实现空间上的局部特征融合;
13、动态门控残差,用于将另一个子特征块与深度卷积层的输出分别经过silu函数激活后,进行逐元素相乘,其目的是为了动态调节残差对最终输出的影响;
14、第二线性层,用于对经过动态门控残差连接的特征进行线性变换,生成最终的输出表示。
15、进一步地,门控深度卷积的空间融合模块(gdconv-sf模块)通过如下表达式实现:
16、子特征块1,子特征块2 = 特征分裂(linearl(input));
17、子特征块1 = activation(reshape(深度卷积(reshape(子特征块1))));
18、子特征块 2 = activation(子特征块 2);
19、output = linear2(multiply(子特征块1,子特征块 2))。
20、上式中,activation表示silu激活函数,multiply表示逐元素相乘,linear1和linear2分别表示两个不同的线性层。
21、进一步地,步骤23中所述的药物不良反应嵌入矩阵的构建方法为:每个药物不良反应的嵌入为初始均值0、标准差0.1的标准化随机向量,最后的嵌入矩阵维度为[不良反应数,8×隐藏层维度];作为一个可学习参数,可在训练过程中进行参数更新。
22、由于不良反应的真实标签并未直接用于训练,因此通过嵌入矩阵可以捕捉不良反应类别的潜在语义信息。
23、进一步地,s23中具体是通过矩阵乘法计算多源异构模态融合后的特征与每个不良反应的相关性,经过sigmoid函数将内积映射为一个介于0-1之间的小数,最终输出预测的概率。
24、进一步地,s1中多源异构模态特征提取包括:
25、s11、线性符号向量化:具体是通过分子子结构向量表示方法对药物smiles序列进行线性符号向量化。
26、进一步地,s1中多源异构模态特征提取还包括:
27、s12、分子指纹嵌入:是指对药物分子指纹编码并进行多分辨率信号处理。
28、具体是基于十六进制字符映射的位压缩算法将传统1024位的药物分子指纹转换为256位紧凑编码,并结合离散小波变换(简称dwt)进行多分辨率信号处理。为了突破符号编码在特征分辨能力上的限制,引入的dwt驱动的多分辨率信号处理策略,能够达成特征空间维度缩减与关键化学信息保留的平衡优化。
29、更进一步地,步骤s12中十六进制字符映射的位压缩算法包括以下步骤:(1)将1024位二值分子指纹按16进制字符重新分组,压缩为64个十六进制字符;(2)对每个十六进制字符进行熵值加权编码,生成256位紧凑向量。
30、进一步地,s1中多源异构模态特征提取还包括:
31、s13、采用不同的图嵌入模型对药物分子结构图进行多角度拓扑编码,其目的是为了从不同角度编码分子结构图特征,各自聚焦于特定结构层次。优选采用attentive fp、mpnn和nfgnn三种图嵌入模型对药物分子结构图进行多角度拓扑编码。
32、进一步地,s1还包括通过双向门控循环单元(bidirectional gated recurrentunit,简称b-gru)对s11-s13提取的各模态特征进行表征优化,其目的是为了捕获双向语境依赖关系。
33、双向门控循环单元(b-gru)是一种基于门控机制的双向循环神经网络架构,通过前向-反向联合建模能够有效捕获序列数据中潜在的双向语境依赖(如分子结构潜在的上下文关系)。相较于其他序列编码器,b-gru在处理较短序列数据时可通过门控状态共享机制显著降低时序计算复杂度。
34、第二方面,本发明还提供一种多源异构模态双通路融合交互的药物不良反应预测系统,包括处理器和存储器,其中所述存储器上存储有计算机程序代码指令;
35、当所述计算机程序代码指令被所述处理器所调用时,使得所述处理器执行如上所述的多源异构模态双通路融合交互的药物不良反应预测方法。
36、本发明提供的多源异构模态双通路融合交互的药物不良反应预测方及系统的应用场景包括:药物研发阶段的安全性评价;处方药批准上市后的潜在不良反应监测。
37、本发明中的名词解释:
38、mol2vec(unsupervised machine learning approach with chemicalintuition)是一种无监督机器学习方法,用于生成分子子结构的向量表示。
39、attentive fp(pushing the boundaries of molecular representation fordrug discovery with the graph attention mechanism)是一种基于图注意力机制的图神经网络模型,主要用于分子表征和药物发现。采用注意力机制动态分配原子间的交互权重,可定位关键药效团(如酶活性中心的关键结合基团),但其局部特征偏好可能弱化分子整体拓扑的泛化表征。
40、mpnn(message passing neural networks)是一种图神经网络(gnn)框架,专门用于处理图结构数据。通过多轮消息传递隐式聚合全局邻域信息,可模拟长程化学作用对物化性质(如logp)的影响,但容易忽视官能团、环系统等子结构的显著性信号。
41、nfgnn(convolutional networks on graphs for learning molecularfingerprints)是一种基于图卷积神经网络(gcn)的分子表示学习方法。该方法可以直接处理分子结构图,并通过端到端的学习生成具有化学意义的分子表示。通过分层卷积显式提取预设半径的邻域特征,能直接匹配已知毒性数据库中的结构警报(如硝基芳环的基因毒性风险),但其固定半径的邻域划分难以适应动态构象变化。
42、本发明具有如下有益效果:
43、本发明提供一种多源异构模态双通路融合交互的药物不良反应预测方法及系统。所述方法包括多源异构模态特征提取与表征优化和双通路融合交互协同预测两个阶段,在多源异构模态特征提取与表征优化阶段面向多源异构数据构建特征工程,然后在双通路融合交互协同预测阶段实现多源异构模态间的层级式融合与跨模态交互学习。
44、本发明仅利用药物的化学结构属性作为输入,通过提出的gdconv-sf 模块构建了线性序列-空间分布的多视角复合嵌入空间,能够实现序列向量和拓扑编码内在信息的互补。本发明设计的双通路融合交互机制能够动态融合局部官能团和全局特征,实现不同模态数据间高效的信息交互和协同优化。最终,基于融合交互后的特征表示与不良反应嵌入的匹配程度实现跨模态协同预测。
45、本发明实现简单,操作简便。与最新的adrs预测方法相比,本发明仅以24.85%的参数量实现了性能指标的超越,轻量级的同时较大地提升了性能指标。本发明具有突破传统实验数据局限的潜力,可用于挖掘已批准的临床药物中尚未观察到的不良反应。对于超过70%的药物使用本方法得到的预测结果,相关研究人员可以通过有限的人工校验环节进行结果精炼,提升最终输出结果的临床适用性。本方法轻量级的架构更能满足实时药物安全性筛查对延迟的严格要求。