一种基于机器学习的致肥胖化学品预测方法及装置

文档序号:36246844发布日期:2023-12-02 13:12阅读:46来源:国知局
一种基于机器学习的致肥胖化学品预测方法及装置

本发明属于化合物预测,尤其涉及一种基于机器学习的致肥胖化学品预测方法及装置。


背景技术:

1、统计数据显示世界肥胖和超重人口从1980年的8亿多增加到2013年的21亿,近年来仍在持续增加。肥胖会增加患2型糖尿病、心血管疾病和癌症的风险,目前已成为一项重大的全球健康挑战。值得注意的一点是,肥胖的流行与化学品的广泛使用同时发生。越来越多的研究表明环境污染物会导致肥胖,这些能干扰人体脂质代谢稳态以促进脂肪形成和脂质积累的化学物质称为致肥胖化学品,目前仍缺少相应监管政策。

2、目前毒理学公认的致肥胖化学品判定指标为:能促进3t3-l1细胞的成脂分化过程。现有机制学研究发现,与过氧化物酶体增殖物激活受体(peroxisome proliferatoractivated receptor gamma,pparγ)、糖皮质激素受体(glucocorticoid receptor,gr)、肝脏x受体(liver x receptor,lxr)、视黄酸受体(retinoic acid receptor,rxr)、ccaat/增强子结合蛋白(ccaat/enhancer binding protein beta,c_ebp)、固醇调节元件结合转录因子(sterol regulatory element binding transcription factor 1,srebp)相互作用是促进3t3-l1细胞的成脂分化过程的关键分子机制。

3、根据上述关键分子机制提出了两种化学品致肥胖潜力打分方法:5-slice和8-slice方法。这两种方法基于美国环保署toxcast计划中批量体外试验获得的化合物与上述六个受体及蛋白的相互作用数据,5-slice方法将数据划分为5部分(pparγ,gr,lxr,rxr,other),每部分内数据计算平均值,各部分相加得出总分,8-slice方法将数据划分为8部分(ppre,pparγ,gr,lxr,lxre,rxr,c_ebp,srebp),每部分内数据计算平均值,各部分相加得出总分,得分高的化学品具有较高的致肥胖潜力。上述方法局限性主要是依赖体外试验的数据,而体外试验测试成本高昂,实验周期久,不能快速、批量预测致肥胖化学品。每年大量化学物质进入环境介质,新化合物的申报及环境风险评估与管控领域需要判别化学物质对人体健康的慢性毒害作用,因此,当前亟需开发一种可以批量、快速、精准预测致肥胖化学品的技术方法,通过该种方法筛选出致肥胖化学品,服务于新化合物的环境风险评估与管控。

4、专利文献cn114171137a公开了一种基于机器学习预测化合物环境危害性的方法,包括以下步骤:(1)建立化合物环境危害性筛选标准;(2)采集样本标签和样本数据,对样本数据进行预处理;(3)基于机器学习算法构建预测模型,利用预处理后的样本数据优化预测模型参数;(4)预测待测化合物是否具有环境危害性。该方法采用化学特性和急性毒性对输入的物质进行预测,并仅针对均符合要求的物质标定为危害物质,但是该方法存在漏检的问题,即实际危害物质仅满足其中一个或两个条件而被标定非危害物质。同时该方法不能识别化学品的毒性作用机制。

5、专利文献cn109360610a公开了一种基于模糊神经网络的化学分子生物毒性预测模型算法,以不同化学结构的疏水性为控制量,生物毒性量为被控量,包括以下步骤:(1)建立生物毒性与辛醇/水分配系数的qsar模型,即建立用于化学分子合成过程中生物毒性与辛醇/水分配系数的模型;(2)建立模糊神经网络化学分子毒性预测模型;(3)建立优化nfn参数的遗传算法模型用于修正模糊神经网络参数;(4)最后利用优化后的模糊神经网络模型对新分子的生物毒性值进行计算预测。


技术实现思路

1、本发明的目的是提供一种基于机器学习的致肥胖化学品预测方法及装置,该方法无需依赖体外试验数据,对致肥胖化学品进行预测。

2、为了实现本发明的第一个目的,提供了一种基于机器学习的致肥胖化学品预测方法,所述致肥胖化学品是指能促进3t3-l1细胞成脂分化过程的化合物,包括以下步骤:

3、根据关键分子事件相关的多个体外试验数据判断化合物对关键分子事件是否有激动作用,构建关键分子事件数据库。

4、基于致肥胖化学品的定义对化合物进行标签标注,构建对应的致肥胖化学品数据库。

5、从所述关键分子事件数据库抽取部分化合物作为样本,基于所述样本的分子结构式提取对应的特异性分子特征。

6、基于样本的特异性分子特征和是否有激动作用的标签组成样本数据集,并基于所述样本数据集对预构建的模型进行训练,以获得用于预测化合物是否对关键分子事件有激动作用的预测模型,所述预测模型包括多个关键分子事件对应的预测子模型。

7、针对关键分子事件数据库和致肥胖化学品数据库进行化合物相似匹配,并将匹配重合的化合物作为标准数据集。

8、基于所述标准数据集,分别用5-slice方法与8-slice方法计算得分,用得分和实际致肥胖结果绘制roc曲线,比较auc面积,选用预测准确率更高的5-slice方法用于子模型整合,并对所有预测子模型进行训练并整合训练结果,以获得预测模型的截断点。

9、将待测化合物的分子结构式输入至预测模型,并基于截断点对预测结果进行判断,以获得待测化合物是否为致肥胖化合物的判断结果,并识别待测化合物引起致肥胖效应的关键分子机制。

10、本发明通过机器学习算法构建化合物定量结构-效应模型预测化学品是否能引发关键分子事件(与pparγ、gr、lxr、rxr、c_ebp、srebp相互作用),再整合多个模型结果,综合预测化学品是否能促进3t3-l1细胞的成脂分化过程,实现不依赖体外试验数据,对致肥胖化学品进行预测。

11、具体的,所述致肥胖化学品数据库中的化合物,若能使3t3-l1细胞的脂肪滴含量增多则标签为1,反之则为0。

12、具体的,所述关键分子事件包括过氧化物酶体增殖物激活受体、糖皮质激素受体、肝脏x受体、视黄酸受体、ccaat/增强子结合蛋白、或固醇调节元件结合转录因子。

13、具体的,化合物对关键分子事件是否有激动作用的判别标准:

14、关键分子事件相关的体外试验数据中,半数以上的试验结果为有激动作用。

15、具体的,所述特异性分子特征包括分子描述符和/或分子指纹。

16、具体的,所述样本数据集在输入至预测模型前需要进行预处理,包括标准化和归一化,标准化是依照特征矩阵的列处理数据,将样本的特征值转换到同一量纲下,归一化是依照特征矩阵的行处理数据,将数据映射到指定的范围。

17、具体的,所述预测模型采用随机森林算法、支持向量机算法或极致梯度提升树算法中的一种进行构建。

18、具体的,根据整合训练结果中每个物质的预测结果得分从高到低排序并与实际结果相比,以最大化准确率的得分作为截断点。

19、为了实现本发明的第二个目的,提供了一种致肥胖化学品预测装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中可在所述计算机处理器上执行的计算机程序,所述计算机存储器中采用如上述的基于机器学习的致肥胖化学品预测方法。

20、所述计算机处理器执行所述计算机程序时实现以下步骤:

21、将待测化合物的分子结构式输入计算机中,通过致肥胖化学品预测方法进行分析,以输出待测化合物是否为致肥胖化学品的判断结果。

22、与现有技术相比,本发明的有益效果:

23、(1)本发明通过建立关键分子事件数据库和致肥胖化学品数据库,利用样本数据、样本标签基于机器学习算法来构建优化预测模型。

24、(2)依据待测物质分子表达式,即可批量、快速、精准地预测该化合物是否属于致肥胖化学品,为化合物风险评价与管控提供指导。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1