基于推进式决策树的中药成分及化合物肝毒评价系统的制作方法

文档序号:6507393阅读:227来源:国知局
基于推进式决策树的中药成分及化合物肝毒评价系统的制作方法
【专利摘要】本发明提供一种中药成分及化合物肝毒的评价预测方法,该方法的步骤包括:步骤一,通过中药成分及化合物结构数据库或中药成分及化合物结构构建工具,确定待评测中药成分及化合物的化学结构;步骤二,根据该待评测中药成分及化合物的化学结构,通过系统内建的基于推进式决策树算法的中药成分及化合物肝毒预测模型对其进行肝毒毒性评价,最终得出评价预测结论。
【专利说明】基于推进式决策树的中药成分及化合物肝毒评价系统

【技术领域】
[0001] 本发明涉及一种计算机辅助中药成分及化合物的肝毒毒性评价方法和其系统。

【背景技术】
[0002] 肝脏作为脊椎动物(包括人类)的器官,是身体内以代谢功能为主的器官,并在身 体里面扮演着去毒素,储存糖原(肝糖),分泌性蛋白质合成等等。在药物开发和使用过程 中,药物肝毒性是导致新药研发失败或者撤市的主要原因之一。因此,对于药物开发早期的 肝毒性评价方法日益受到各大制药公司所重视。在国内,中药使用是治疗疾病的主要方法, 然而越来越多的中药已被报道和确证具有肝毒活性,严重危害了药物的安全使用。因此,亟 需对中药成分及化合物的肝毒活性进行整体评价,从而优化临床用药。
[0003] 利用传统的实验方法去检查中药成分及化合物的肝毒活性,往往周期较长,成本 较高,难以实现对数量巨大的中药成分及化合物肝毒活性进行评价。近年来,已有不少课题 组尝试利用毒理基因组学去进行肝毒性研究并取得了一定成绩,但基因芯片技术在理论上 和技术上仍存在一定的局限性,从而导致了这里方法的评价准确性不高。计算毒理学的快 速发展和在环境化合物毒性评价上的大量应用表明了基于毒理学方法快速预测中药成分 及化合物肝毒活性的可行性。计算毒理学方法应用定量结构-活性相关(QSAR)关系可以 直接基于分子结构预测化合物的生物活性,优化动物实验设计,减免了繁重的实验和高昂 的费用,减少了受试动物的数量,现在已被广泛应用于药物设计过程中的化合物毒性预测, 并取得了较好的结果。我们通过对已有化合物肝毒预测模型调研发现,几乎所有的模型所 采用的训练集数据都是人工合成的化合物(包括药物),并没能体现中药成分在结构上的 多样性,因而可能不能较好地应用于中药成分的肝毒活性预测。由于树模型易于理解和实 现,并且适合应用于非数值型数据分类,目前已有人将树模型成功地应用于化合物毒性的 预测。如张振山等利用正决策树算法构建了一个由80株决策单树构成的决策森林模型,并 对化合物的致癌毒性预测取得了很好的效果;Cheng和Dixon利用递归分组和整体学习方 法基于决策树模型构建了化合物肝毒预测模型,该模型对外部数据集表现出很高的预测效 果。而Fourches等利用支持向量机方法构建的肝毒预测模型表明,其对外部数据集的预测 准确性介于55. 7-72. 6%,低于利用决策树构建的模型。


【发明内容】

[0004] 本发明针对上述情况,通过已上市药物和文献已报道的中药成分及化合物肝毒数 据作为训练集,构建了基于推进式决策树算法的中药成分及化合物肝毒预测模型,从而提 供一种快速、相对准确的中药成分及化合物肝毒评价的方法及其系统。
[0005] 为了实现上述任务,本发明采取如下的技术解决方案:
[0006] 本发明的第一方面,提供一种中药成分及化合物肝毒的评价预测方法,该方法的 步骤包括:步骤一,通过中药成分及化合物结构数据库或中药成分及化合物结构构建工具, 确定待评测中药成分及化合物的化学结构;步骤二,根据该待评测中药成分及化合物的化 学结构,通过系统内建的基于推进式决策树算法的中药成分及化合物肝毒预测模型对其进 行肝毒毒性评价,最终得出评价预测结论。
[0007] 步骤二中的"基于推进式决策树算法的中药成分及化合物肝毒预测模型",是通过 采用分子描述符,描述符筛选和推进式决策树方法,对现有相关肝毒毒性中药成分及化合 物的分子结构和其肝毒属性进行统计建模而得。详细的建模过程如下:
[0008] 1 ?数据
[0009] 本次预测模型构建所基于的化合物数据来自FDA中LiverToxicityKnowledge Base(LTKB)所含有的286个化合物数据(221有肝毒和65无肝毒)和62个文献收集的已 知肝毒活性的中药成分数据作为训练集(共348个中药成分或化合物)。LTKB是美国FDA 国家毒理研究中心关于药物引发的肝脏损伤研究的一个项目,其目的是帮助药物研发人员 对肝损伤机理的理解,给予药物研发人员,科研人员和管理人员药物安全性评价方面的参 考。该项目涉及到多方面的数据收集整理工作,包括肝毒机理,药物机理,靶点,副作用等方 面的信息,然后利用系统生物学的方法综合分析这些数据,给予单个的药物的肝损伤特征 进行评估。重要的是,在具体评估阶段,传统方法和高通量分子矩阵的方法是被用来对所挑 选的药物肝损伤进行评价,大大增强了数据的可信性。
[0010] 2?模型的构建
[0011] 2. 1分子描述符的计算。在收集齐这348个中药成分或化合物2D结构的基础上, 利用Mold2(Molecular2DDescriptorsGeneratorSoftware)软件对每个中药成分或化 合物计算其2D描述符。Mold2是由美国国家毒理研究中心生物信息中心所开发,是一款快 速且免费的2D分子描述符计算软件,能够基于化合物的2D结构计算其777个2D描述符, 适用于不同数目大小的化合物描述符计算。
[0012] 2. 2分子描述符的筛选。首先,我们剔除了超过总数90%的中药成分或化合物中 计算值都为恒定值的描述符,接着除去了两两相关系数高于0.9的两描述符中的一个,确 保描述符之间没有严重的依赖关系;然后对描述符间存在的多元相关性进行了清理。在描 述符具体挑选过程中,采用重采样的方法来多次评估不同数目描述符集所构建模型对中药 成分或化合物数据的预测情况。模型构建方法采用随机森林算法,模型构建过程中采用了 交叉验证的方法。最后,参考不同数目的描述符集所构建模型的预测情况挑选出最佳描述 符集用于最终的模型构建。具体步骤如下:1.首先利用重采样方法将数据分成训练集和测 试集两类;2.基于训练集数据,利用所有的描述符,构建预测模型,并对测试集数据进行预 测评价,同时基于预测结果对参与构建模型的变量进行评价并排序;3.选取不同个数的最 重要描述符,并基于训练集数据利用随机森林算法构建模型,并利用leave-one-out交叉 验证方法去评价,最优模型用来对测试集数据进行预测评价;4.重复1,2和3步骤,统计分 析不同数目最重要描述符所构建模型的预测情况,选定了最优的35个描述符。这35个描 述符在Mold2 软件中的编码分别是D026、D123、D144、D152、D173、D191、D253、D255、D299、 D309、D374、D449、D456、D457、D460、D461、D464、D465、D471、D475、D476、D477、D485、D489、 D521、D539、D565、D572、D580、D588、D674、D677、D747、D775、D777,分别涉及拓扑指数、信息 指数、Burden特征值和组成参数等方面。
[0013] 2. 3模型构建并评价。推进式决策树算法同样属于一种集成分类器,训练集中的每 个样本会首先得到一个权重值,并会根据分类器预测结果的正确性修改自身的权重值,预 测结果是由所包含的多个迭代分类器所决定。在具体的模型构建过程中,设定迭代次数为 10次,并利用leave-one-out的交叉验证方法对模型构建方法进行评估。构建出的模型准 确性到达82%。
[0014] 使用22个并不包含在构建模型的训练集数据中的中药成分作为外部测试集,预 测模型的评价准确度达到了 68%,其中对16个有肝毒中药成分预测正确率为81%。22个 中药成分分别是苦参碱、氧化苦参碱、雷公藤甲素、雷公藤内酯酮、雷公藤红素、雷公藤次 碱、吴茱萸次碱、吴茱萸碱、吴茱萸内酯、辛弗林、薯蓣皂苷、马兜铃酸A、汉防己乙素、商陆皂 苷甲、甘草次酸、穿心莲内酯、川楝素、马钱子苷、葛根素、桅子苷、秦皮甲素、五味子素。测试 22个中药成分在人正常肝细胞HL7702细胞株(上海中科院细胞库)的肝毒毒性情况见下 表。
[0015] 表1.利用最优模型对外部22个中药成分肝毒性的预测结果

【权利要求】
1. 一种基于推进式决策树算法的中药成分及化合物肝毒评价方法,其特征在于: (1) 构建模型的肝毒基础数据既含有西药化合物,又含有中药成分; (2) 采用了重采样算法结合随机森林算法选择出最优中药成分及化合物描述符集,用 作中药成分及化合物的化学表征并用于构建中药成分及化合物肝毒预测模型,所述描述符 包括拓扑指数、信息指数、Burden特征值和组成参数等方面; (3) 使用改进的推进式决策树算法对训练集中药成分及化合物的肝毒毒性数据及其相 应化学表征进行数据挖掘,得到中药成分及化合物肝毒预测模型; (4) 使用改进的推进式决策树算法使用地P语言开发模块化的中药成分及化合物肝毒 毒性预测程序。
2. -种基于推进式决策树算法的中药成分及化合物肝毒评价系统,其特征在于,所述 预测系统至少包括: (1) 输入模块,用于输入中药成分及化合物的名称或(和)化学结构; (2) 输出模块,用于计算过程信息的显示,W及预测结果汇总和输出; (3) 存储模块,用于存储、读取和管理计算机程序文件、中药成分及化合物结构文件、活 性数据文件、配置文件、临时文件和历史文件; (4) 中药成分及化合物结构数据库;用于存储和管理中药成分及化合物的各种名称和 2维结构数据; (5) 中药成分及化合物肝毒数据库,用于存储和管理肝毒毒性的中药成分及化合物, 包括其标准名称、肝毒属性和实验条件等,数据来自美国食品药品监督管理局的Liver Toxicity Knowledge Base (LT邸)所含有的286个化合物数据(221有肝毒和65无肝毒) 和62个文献收集的已知肝毒活性的中药成分数据作为训练集(共348个中药成分或化合 物)等; (6) 中药成分及化合物毒性预测模块,用于评价预测待测中药成分及化合物肝毒性 质; (7) 数据处理模块,用于连接上述各个模块,实时管理数据流向,是系统核也模块; 上述数据库信息将不定时更新添加新的中药成分或化合物。
【文档编号】G06F19/00GK104346513SQ201310344934
【公开日】2015年2月11日 申请日期:2013年8月9日 优先权日:2013年8月9日
【发明者】朱永亮, 叶立, 王新洲, 叶祖光, 金若敏, 姚广涛, 刘敬阁, 钱向平 申请人:苏州润新生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1