一种基于有害结局路径的化学品生殖毒性迁移学习模型预测方法

文档序号:42356063发布日期:2025-07-04 17:21阅读:46来源:国知局

本发明涉及数据处理,尤其涉及一种基于有害结局路径的化学品生殖毒性迁移学习模型预测方法。


背景技术:

1、化学品的潜在生殖毒性评价是其健康风险管控的前提,对制定科学的监管策略具有关键作用。生殖毒性是指化学物质或混合物暴露后对成人的性功能、生育能力及后代发育的不良影响。例如,内分泌干扰物(edcs)等化学品进入人体后,通过干扰内分泌系统的正常功能导致生殖毒性。然而,化学品种类众多,其中仅不到1%具有生殖毒性信息,阻碍其管理和健康风险防控,采取高效的方法筛查化学品的生殖毒性显得尤为重要。

2、经济合作与发展组织倡导基于大鼠和小鼠动物实验对化学品生殖毒性进行评价,发布了一代生殖毒性、两代生殖毒性和扩展一代生殖毒性等测试导则。将测试所得的半数抑制浓度与所划定的标准阈值比较,判断一种化学品是否具有生殖毒性。

3、动物实验能够很好地评估化学品生殖毒性,但难以阐明复杂的毒作用机制,且测试费用高、周期长,涉及到动物伦理问题。近年来,基于体外细胞或核受体的高通量筛选方法hts被普遍视为化学品生殖毒性的替代评价方法。hts可实现生殖毒性的快速筛查,但其依赖于化学品标样和设备,且无法反映体内毒代动力学过程,导致结果与活体效应产生偏差。同时,仅依靠实验测试,难以满足海量化学品生殖毒性评估需要,有必要开发高效且低成本的筛查技术。

4、计算毒理学通过构建数学或计算机模型,以实现化学品危害性与风险性的高效预测评价。随着人工智能技术的发展,一些机器学习方法如随机森林、支持向量机及k近邻等被广泛应用于构建计算毒理学模型。这些模型具有成本低、计算速率快和通量高的优点,逐渐成为实验测试的替代方法。已有研究发展了生殖毒性机器学习预测模型,如文献“front.toxicol.,2022,4,981928”和“front.pharmacol.,2022,13,1018226”分别针对离体和活体生殖毒性进行建模,但模型预测精度并不理想,一方面hts数据难以反映体内环境有关,另一方面活体毒性数据量过小,导致模型稳健性差。

5、如何整合海量的离体测试数据,用于少数据样本的活体毒性预测成为计算毒理学模型发展的趋势。有害结局路径(aop)框架提供了从分子水平的起始事件(mies),到中间的关键事件(kes),直至个体水平有害结局(ao)的多层级毒性效应信息,为生殖毒性建模提供了大量数据。文献“environ.sci.technol.,2022,56,12391”分别构建aop多层次终点模型并堆叠的方法来预测生殖毒性;文献“environ.sci.technol.,2021,55,10875”提出了一种将生殖毒性aop数据融入深度神经网络的模型框架。这些模型虽然提升了准确性和解释性,但模型架构复杂,需针对多个生物测试建模,且因活体数据样本量过少(几十种化学品)而易导致过拟合。因此,需要提供一种新型迁移学习策略通过在大数据集(源域)上建模,并迁移到小数据集(目标域),解决小数据集建模问题,为生殖毒性预测提供有效策略。


技术实现思路

1、根据上述提出的技术问题,而提供一种基于有害结局路径的化学品生殖毒性迁移学习模型预测方法。本发明基于雄激素/雌激素α受体(ar/erα)离体测试数据,通过构建深度神经网络源模型,并逐步冻结网络层,在aop下游不同事件上微调,最终迁移预测活体生殖毒性。该模型可依据化学物质的smiles,直接预测其是否具有生殖毒性。本发明创建的迁移学习预测模型,具有更宽的应用域和高预测准确性,可用于化学品生殖毒性的高通量预测。该方法有望广泛拓展至其他活体毒性终点的建模预测,助力化学物质健康风险的评价与监管。

2、本发明采用的技术手段如下:

3、一种基于有害结局路径的化学品生殖毒性迁移学习模型预测方法,包括:

4、收集化学品男女生殖毒性在有害结局路径中不同层级的测试数据,并对测试数据进行预处理;

5、将预处理后的测试数据随机拆分为训练集、验证集和测试集,利用深度神经网络训练源模型,经过迁移后得到目标模型;

6、以曲线下面积、f1得分和平衡准确率为指标评价目标模型的预测性能;

7、根据指标相似性密度和加权崎岖性表征目标模型的应用域;

8、利用目标模型预测应用域内化学品对活体是否存在生殖毒性。

9、进一步地,所述测试数据包括雄激素介导的男性生殖毒性有害结局路径和雌激素介导的女性生殖毒性有害结局路径;

10、所述雄激素介导的男性生殖毒性有害结局路径包括:雄激素结合、共调节因子募集、染色质结合、转录因子激活、基因表达上调、细胞增殖和性器官重量增加;所述雌激素介导的女性生殖毒性有害结局路径包括:雌激素结合、雌激素二聚化、染色质结合、转录因子激活、基因表达上调、细胞增殖和性器官重量增加。

11、进一步地,所述对测试数据进行预处理,包括:

12、通过pubchem数据库生成各化学品的smiles,并进行标准化,去除金属盐类物质、无机物以及混合物;对于体外数据,将同一事件的不同实验中均为阴性的化学品标记为阴性,至少一次实验为阳性的化学品标记为阳性;对于体内数据,仅选取在所有实验中结果一致的化学品。

13、进一步地,所述利用深度神经网络训练源模型,经过迁移后得到目标模型,包括:

14、对化学品的smiles进行处理,生成maccs分子指纹,利用深度神经网络对源模型进行训练,以单个事件作为源域,通过tensorflow架构训练深度神经网络源模型;

15、所述深度神经网络由6个神经网络层和输出层组成,采用sigmoid、tanh、elu和relu作为不同网络层神经元的激活函数,并通过交叉验证和网格搜索优化超参数,根据最小损失函数值确定最优超参数,经过迁移后得到目标模型。

16、进一步地,所述以曲线下面积、f1得分和平衡准确率为指标评价目标模型的预测性能,包括:

17、所述曲线下面积为roc曲线下的面积,用于反映目标模型对于正负样本的区分度,所述roc曲线将真阳性率与假阳性率之间的权衡可视化;根据真阳性率和假阳性率计算曲线下面积auc:

18、tpr=tp/(tp+fn)

19、fpr=fp/(fp+tn)

20、其中,tpr为真阳性率,fpr为假阳性率;tp为真阳性化学品样本,tn为真阴性化学品样本;fp为假阳性化学品样本,fn为假阴性化学品样本;

21、所述f1得分综合考虑了精确率和召回率,所述精确率precision用于衡量目标模型预测为正例的样本中真正正例的概率;所述召回率recall用于衡量目标模型正确预测出真正正例的概率:

22、precision=tp/(tp+fp)

23、recall=tp/(tp+fn)

24、f1score=2*(precision*recall)/(precision+recall)

25、其中,f1score表示f1得分;

26、所述平衡准确率用于反映在不平衡数据集中,各类别样本数量不均衡的情况下,目标模型的整体分类性能:

27、ba=(tpr+tnr)/2

28、其中,ba表示平衡准确率。

29、进一步地,所述根据指标相似性密度和加权崎岖性表征目标模型的应用域,包括:

30、以逐步迁移学习模型训练集中的化学品为基础,确定目标模型的相似性密度ρs和加权崎岖性ia:

31、

32、

33、其中,ρs,q为待测化学品q和训练集化学品之间的加权相似性密度,ia,q为待测化学品q和训练集化学品之间的加权活性不连续性;wq,t是待测化学品q与训练集化学品t对的权重函数;t表示训练集;swd,t表示训练集化学品t的加权局部不连续分数;sm,q,t是基于maccs分子指纹计算的待测化学品q与训练集化学品t的谷本相似系数;scutoff为谷本相似系数的阈值;

34、设定相似性密度ρs和加权崎岖性ia的阈值,当待预测化学品满足目标模型中设定的相似性密度ρs和加权崎岖性ia阈值范围时,则认为该待预测化学品在目标模型的应用域内。

35、进一步地,所述利用目标模型预测应用域内化学品对活体是否存在生殖毒性,包括:

36、计算待预测化学品与训练集中化学品的相似性密度ρs和加权崎岖性ia,当待预测化学品在应用域内时,利用目标模型对待预测化学品进行预测,当输出的预测值大于0.5时,将该待预测化学品认定为阳性,具备生殖毒性;当输出的预测值小于0.5时,将该待预测化学品认定为阴性,不具备生殖毒性。

37、较现有技术相比,本发明具有以下优点:

38、本发明提供的一种基于有害结局路径的化学品生殖毒性迁移学习模型预测方法,收集化学品男女生殖毒性在有害结局路径中不同层级的测试数据,并对测试数据进行预处理;将预处理后的测试数据随机拆分为训练集、验证集和测试集,利用深度神经网络训练源模型,经过迁移后得到目标模型;以曲线下面积、f1得分和平衡准确率为指标评价目标模型的预测性能;根据指标相似性密度和加权崎岖性表征目标模型的应用域;利用目标模型预测应用域内化学品对活体是否存在生殖毒性。本发明中的迁移学习模型,充分融合了化学品由分子起始事件到产生有害结局的多层级离体测试毒性数据,可准确预测活体生殖毒性。相较于已有的机器学习模型,不仅在准确性上有了显著提升,模型稳健性也更好。此外,本发明模型具有明确的应用域表征,确保了模型应用的可靠性,有望在化学品毒性高通量筛查中发挥重要作用,为国家化学品监管及新污染物治理提供技术支撑。

39、基于上述理由本发明可在数据处理等领域广泛推广。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1