一种中药方剂核心药物的发现方法

文档序号:8498783阅读:1318来源:国知局
一种中药方剂核心药物的发现方法
【技术领域】:
[0001 ] 本发明主要涉及中药方剂核心药物的发现,用于挖掘治疗某种病症的方剂中的核 心药物。
【背景技术】:
[0002] 药物是方剂的基本组成成份。众所周知,"君臣佐使"是中医组方的基本原则。方 剂的药物按照其在方剂中所起的作用分别分为君药、臣药、佐药、使药,简称为"君臣佐使"。 各种药在方剂中所起的作用是不一样的。找到中药方剂中对治疗某种疾病起主要作用的核 心药物,能够揭示中药方剂配伍中的用药规律,对于年轻的中医从业者学习名老中医经验、 掌握中医理论精髓以及进一步研宄中医理论,有着非常重要的作用。
[0003] 现存方剂数据库已有近十万首方剂,涉及一万多种药物。针对某种特定疾病的方 剂往往也涉及几百首方剂和药物。传统的通过人工的方法去提取这些方剂的核心药物已经 无法适应现代需求,迫切需要计算机辅助方法。
[0004] 目前关于中药方剂核心药物的挖掘,主要有基于频次的方法和基于PageRank的 方法。基于频次的方法容易受药物出现频次的影响,挖掘结果不够准确。基于PageRank的 方法也存在排名不够合理,算法相对难以理解等特点,不能很好满足需求。

【发明内容】

[0005] 本发明需要解决的技术问题是,提供一种中药方剂核心药物的方法,尤其是基于 改进K-Means聚类和加权TF-IDF的中药方剂核心药物提取方法,主要针对目前已有方法容 易受药物出现频次影响、挖掘结果不够准确、算法复杂等问题,提出的通用型、准确有效、合 理的中药方剂核心药物挖掘方法。
[0006] 本发明解决上述问题所采取的技术方案为:一种中药方剂核心药物的发现方法即 基于改进K-Means聚类和加权TF-IDF的中药方剂核心药物提取方法,其特征在于,由改进 聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数 的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的 模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚 类成一个簇;
[0007] 加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物 顺序重要度、TF-IDF算法三部分;
[0008] 所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量, 方剂中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为〇 ;
[0009] 所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:
【主权项】
1. 一种中药方剂核心药物的发现方法,其特征在于,由改进聚类算法和加权TF-IDF算 法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三 部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用 于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇; 加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序 重要度、TF-IDF算法三部分; 所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂 中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为O ; 所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:
方剂向量; 所述的聚类挖掘算法,其采用的是改进的基于节点部分分配的K-Means算法;算法预 先设置一个阈值a,在将节点分配到中心点的时候,对于到所有中心点的距离都超过a的 节点,暂时不把它分配到任何中心节点所表示的聚类;这样在一轮分配结束的时候可能会 存在一些未被分配的节点。在下一轮分配的时候,从这些节点中在随机选取一些种子节 点作为中心点;这样通过不断的迭代,最终数据集中的每个节点都会被分配到合适的分类 中; 所述的药物顺序重要度,其指的是方剂组成中某一药物的重要程度;其定义为:
所述的TF-IDF算法,指的是信息学中的词频-逆文档频率算法;一个词的权重定义为:
示语料库中的文件总数,I d J I表示包含单词&的文件的数目; 根据下式计算药物h的权重W(h,x),用于计算药物h在治疗某种病X的权重指
表示整个方剂数据库聚类数除以药物h在整个方剂数据库中出现的权重的商的对数,为药 物在方剂数据总库的"逆文档频率";
i,f表示某首方剂,I IciI I表示方剂聚类(^中包含的方剂的数目,bool (h G f)表示药物 h是否出现在方剂f中,出现为1,不出现为0 ;count (h G Ci)表示药物h在方剂聚类(^中 出现的次数除以方剂聚类的方剂数,值域是[〇,1] ;If(h)为药物h在方剂f中的顺序重要
聚类(^中的总顺序重要度除以聚类方剂数;set (X)表示治疗病X的所有方剂,all_set表 示整个方剂数据库;坳H,))表示药物h在治疗病X的方剂聚类中出现的权重,为 药物"加权词频"。
【专利摘要】一种中药方剂核心药物的发现方法,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;算法具有较高的准确性。
【IPC分类】G06F19-00
【公开号】CN104820775
【申请号】CN201510183745
【发明人】张雷, 刘焕锐, 资帅, 王强, 吴和生, 谢俊元
【申请人】南京大学
【公开日】2015年8月5日
【申请日】2015年4月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1