基于复杂网络模型并行化PageRank算法的核心药物挖掘方法

文档序号:6366163阅读:601来源:国知局
专利名称:基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
技术领域
本发明涉及一种中药复杂网络建模,以及在该模型上采用并行化PageRank算法挖掘中药核心药物的技术。
背景技术
数据挖掘技术可以在大量数据下发现潜在的、有用的知识,是计算机人工智能的重要组成部分,利用数据挖掘技术可以实现对中药复方数据的智能分析,发现潜在中药配伍规律。常用的数据挖掘模型都是基于事务项的,即把复方看成由多种药物组成的事务并储存在事务数据库中。随着中药复方数据规模的增加以及对更深层次挖掘的要求,传统的基于事务项模型的中药关联规则、分类和聚类等算法已经难以满足中药数据挖掘的需求。而将复杂网络分析以及并行计算引入中药数据挖掘中可以弥补传统数据挖掘的缺陷,井能直观展现药物间关系,加速系统响应速度,是有效的创新和尝试。复杂网络分析如今已经涉及到社会关系、经济、交通、生命科学等多个领域,能够展现节点关系拓扑结构、模拟信息传播以及挖掘节点隐藏知识。利用中药复方数据构建中药复杂网络打破了传统中药数据挖掘基于事务项的建模模型,可以深入研究中药配伍规律。其中利用复杂网络中的PageRank算法可以挖掘中药的核心药物,其主要包括两方面的应用I)哪些药物是治疗特定病症最常见且最关键的药物,比如治疗哮喘、消渴症等给 定病症,哪些中药材用得多并且对组方来说最为关键。2)哪些药物是在大量中药组方中常用到的关键药物,可以大量随机选取复方数据库中的一些复方作为初始数据,研究其中关键的药物有哪些。在此与第一种应用不同的是这里并没有给定症状,而仅仅是随机选择的大量复方数据。PageRank算法是ー种数据挖掘的方法,传统的PageRank算法不能在分布式并行环境下运行,随着数据的激増,普通的算法不再适用于大規模数据。为了提高算法的可扩展性以及可伸縮性,以便能在大量复方数据下快速高效运行算法,需要用到并行计算MapReduce编程模式。该编程模式主要包括Map和Reduce两个过程,体现了分治和合并的思想。实现MapReduce编程模式的系统框架有Google集群和Hadoop集群等。

发明内容
本发明目的是解决实现中药复杂网络建摸,并在该模型上采用并行化PageRank算法,以快速发现中药核心药物。为解决上述问题,本发明技术方案是基于复杂网络模型并行化PageRank算法的核心药物挖掘方法,包括如下步骤I)组网阶段
a)预处理生成中药复方数据集,格式化为文本数据;所说的预处理为抽取中药复方数据中所有复方的药物组成;每个中药复方均格式化为文本数据;b)将初始文本数据部署至Hadoop平台,即开发分布式并行程序的平台;所说的部署为将步骤a生成的初始文本数据上传至Hadoop的分布式文件系统(HDFS);c)并行化组建中药药物网络TCM ;具体过程如下I)为每个中药复方(一行文本数据)设定一个唯一复方标识ID ;2)建立从药物到复方标识ID之间的倒排索引;3)为每个药物设定唯一药物标识id,并包含在复方中出现的频次;4)再次建立倒排索引,还原中药复方的文本数据;5)分布式并行程序的每个Map函数读取一行文本数据,解析出中药复方的药物节点信息;6)两两组合原复方中的药物,以按字典序小的药物ID加上频次作为Key,另一个作为Value,以键值对〈Key, Value〉的形式经过shuffle & & sort (Hadoop平台自带的两个步骤,主要对Key值进行排序整理等)发送到Reduce函数;7)开发分布式并行程序的Reduce函数接收相同Key下组成的[Value]数组(即Map函数传递的所有在该Key下的Value,结合上文来说即药物的ID与其出现频次),按照下式计算两两药物间度量,将大于设定阈值的药对写入文件并保存至HDFS中
权利要求
1.基于复杂网络模型并行化PageRank算法的核心药物挖掘方法,其特征是包括如下步骤 I)组网阶段 a)预处理生成中药复方数据集,格式化为文本数据;所说的预处理为抽取中药复方数据中所有复方的药物组成;每个中药复方均格式化为文本数据; b)将初始文本数据部署至Hadoop平台,即开发分布式并行程序的平台;所说的部署为将步骤a)生成的初始文本数据上传至Hadoop的分布式文件系统(HDFS); c)并行化组建中药药物网络TCM; 具体过程如下 1)为每个中药复方(一行文本数据)设定一个唯一复方标识ID; 2)建立从药物到复方标识ID之间的倒排索引; 3)为每个药物设定唯一药物标识id,并包含在复方中出现的频次; 4)再次建立倒排索引,还原中药复方的文本数据; 5)分布式并行程序的每个Map函数读取一行文本数据,解析出中药复方的药物节点信息; 6)两两组合原复方中的药物,以按字典序小的药物ID加上频次作为Key,另一个作为Value,以键值对〈Key, Value〉的形式经过shuffle & & sort发送到Reduce函数;以上为Hadoop平台自带的两个步骤,对Key值进行排序整理; 7)开发分布式并行程序的Reduce函数接收相同Key下组成的[Value]数组,即Map函数传递的所有在该Key下的Value,按照下式计算两两药物间度量,将大于设定阈值的药对写入文件并保存至HDFS中
全文摘要
本发明的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法包括如下步骤1)组网阶段a)预处理生成中药数据集,格式化为文本数据;b)将初始文本数据部署至Hadoop平台;c)并行化组建中药药物网络TCM;d)结束。2)挖掘阶段a)获取步骤1-c处理生成的中药药物网络文本文件;b)将药物网络文本文件部署至Hadoop平台;c)实施并行化PageRank算法发现核心药物节点;d)结束。本发明的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法建立了中药药物复杂网络模型,利用并行化技术提高了组网以及PageRank算法的可扩展性和运行速度,并且能有效挖掘复方中的关键核心药物节点,研究中药配伍规律。
文档编号G06F19/00GK102708285SQ201210122900
公开日2012年10月3日 申请日期2012年4月24日 优先权日2012年4月24日
发明者刘正, 吴骏, 王志坚, 许峰 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1