一种面向大数据的潜在药物不良反应数据挖掘方法

文档序号:8445742阅读:1476来源:国知局
一种面向大数据的潜在药物不良反应数据挖掘方法
【技术领域】
[0001] 本发明涉及数据挖掘方法领域,涉及一种面向大数据的潜在药物不良反应数据挖 掘方法。
【背景技术】
[0002] 药物不良反应(AdverseDrugReactions,简称ADRs)已经成为医学界和民众关注 的热点,用药安全问题日益得到全社会的重视。尽管药物上市前会进行相应的临床试验,但 是由于人群的数量及试验周期等限制,导致临床试验无法揭露药物所有的不良反应。从而 造成具有潜在药物不良反应的新药流入市场,对公众健康产生了巨大的威胁。因此,如何挖 掘药物的不良反应具有重大的理论价值和实用价值。
[0003] 对于上市药物潜在不良反应挖掘的研宄,主要依托于医院提供的电子病例以及药 物不良反应自发报告系统所收集的药物不良事件报告。医院的电子病历系统具有完整的、 格式化的病人信息记录,但是由于隐私保护等原因,这些信息外界是无法得到的。经过多年 的收集,药物不良事件自发报告系统已积累了大量的药物不良事件报告,这些不良事件报 告来自医生或者病人,其包含的药物不良反应关系尚未得到医学上的验证。经过匿名化等 隐私保护处理,这些不良事件报告对外公开,为科研人员提供了宝贵的数据资源。而大多现 有的研宄主要针对其中的某类药物和某些不良反应进行潜在关系的挖掘,其泛化性能并不 尚。

【发明内容】

[0004] 本发明的目的是提供一种可靠性强,适用于潜在药物不良反应的挖掘与预警的面 向大数据的潜在药物不良反应数据挖掘方法。
[0005] 本发明解决现有技术问题所采用的技术方案:一种面向大数据的潜在药物不良反 应数据挖掘方法,其特征在于,该方法包括以下步骤:
[0006] A、抓取药物不良事件报告:在本地构建药物不良事件数据集,利用爬虫技术从已 知的药物不良事件报告数据库中抓取包含有药名文本数据的药物不良事件报告,并以字符 串形式存储于所述药物不良事件数据集中;所述药名文本数据为出现在药物不良事件报告 的药名域中的文本数据。
[0007] B、对药物不良事件数据集的药物不良事件报告进行数据预处理;所述数据预处理 过程包括以下步骤:
[0008]Bl、药名文本数据规范化:利用正则表达式对所述药物不良事件报告中的药名文 本数据进行规范化;
[0009] B2、生成候选药名片段:对于规范化后的药名文本数据中所包含有' + 符号的药名文本,通过' + V'符号对药名文本进行切分,以形成候选药名片段;
[0010] B3、基于频率的候选药名片段去噪:
[0011] 在步骤B2所形成的候选药名片段中所存在的无对应药名的文本数据,预设最小 频率阈值,并将出现次数小于该阈值的药名片段从候选药名片段中过滤掉,得到药物名称 列表;
[0012] C、药名标准化:利用生物医学命名实体识别技术,对药物名称列表中的药物名称 进行药名标准化;药名标准化的具体方法为:通过利用MetaMap系统对药物名称列表进行 生物医学实体识别,并将识别到的生物医学实体映射到UMLS的超级叙词表中形成不良反 应药物列表(dl,d2,…,dm)和不良反应列表(al,a2,…,an);
[0013]D、过滤已知不良反应:对于步骤C得到的不良反应药物列表(dl,d2,…,dm)和 不良反应列表(al,a2,…,an),在每份药物不良事件报告中,将不良反应药物列表中的药 物di的已知不良反应aj从不良反应列表中去除,得到过滤后的不良反应列表(&1,&2,~ ,aj-1,aj+1, ...,am);
[0014]E、关联度计算:包括以下步骤:
[0015]E1、在已知的药物不良事件报告数据库中,统计不良事件药物列表中药物di出现 的次数、不良反应aj出现的次数以及该药物di和不良反应aj的共现次数;
[0016]E2、计算药物di出现的情况下不良反应aj出现的条件概率p(aj|di),和不良反应 aj出现的情况下药物di出现的条件概率p(di|aj);
【主权项】
1. 一种面向大数据的潜在药物不良反应数据挖掘方法,其特征在于,该方法包括以下 步骤: A、抓取药物不良事件报告:在本地构建药物不良事件数据集,利用爬虫技术从已知的 药物不良事件报告数据库中抓取包含有药名文本数据的药物不良事件报告,并以字符串形 式存储于所述药物不良事件数据集中;所述药名文本数据为出现在药物不良事件报告的药 名域中的文本数据; B、对药物不良事件数据集的药物不良事件报告进行数据预处理;所述数据预处理过 程包括以下步骤: B1、药名文本数据规范化:利用正则表达式对所述药物不良事件报告中的药名文本数 据进行规范化; B2、生成候选药名片段:对于规范化后的药名文本数据中所包含有' + 符号 的药名文本,通过' + V'符号对药名文本进行切分,以形成候选药名片段; B3、基于频率的候选药名片段去噪: 在步骤B2所形成的候选药名片段中所存在的无对应药名的文本数据,预设最小频率 阈值,并将出现次数小于该阈值的药名片段从候选药名片段中过滤掉,得到药物名称列 表; C、 药名标准化:利用生物医学命名实体识别技术,对药物名称列表中的药物名称进行 药名标准化;药名标准化的具体方法为:通过利用MetaMap系统对药物名称列表进行生物 医学实体识别,并将识别到的生物医学实体映射到UMLS的超级叙词表中形成不良反应药 物列表(dl,d2,···,dm)和不良反应列表(al,a2,*",an); D、 过滤已知不良反应:对于步骤C得到的不良反应药物列表(dl,d2,···,dm)和不 良反应列表(al,a2,…,an),在每份药物不良事件报告中,将不良反应药物列表中的药 物di的已知不良反应aj从不良反应列表中去除,得到过滤后的不良反应列表(&1,&2,··· ,aj-1, aj+1, ...,am); E、 关联度计算:包括以下步骤: E1、在已知的药物不良事件报告数据库中,统计不良事件药物列表中药物di出现的次 数、不良反应aj出现的次数以及该药物di和不良反应aj的共现次数; E2、计算药物di出现的情况下不良反应aj出现的条件概率p (aj I di),和不良反应aj 出现的情况下药物di出现的条件概率p(di|aj);
,其中,fre(di)为药物di出现的次数,fre(aj)为不良反应aj 出现的次数,fre (ai,dj)为药物di和不良反应aj的共现次数; E3、关联度计算:利用双条件概率乘积法,计算药物di和不良反应aj的关联度: sim(di, aj)=p(aj |di)*p(di |aj); F、 关联度排序:对于药物di,根据步骤E3的药物和不良反应之间的关联度sim(di, aj) 值,对所有的不良反应按照降序排列,取排列次序在前的不良反应作为药物di的潜在药物 不良反应。
2. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法,其特征 在于,所述已知的药物不良事件报告数据库为公共开放数据集或电子病历。
3. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法,其特征 在于,在步骤B3中,预设最小频率阈值为100。
4. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法,其特征 在于,对于格式上无法存储在传统的关系数据库中的药物不良事件报告,利用格式解析工 具将药物不良事件报告转化为字符串形式按行以文本文件的方式存储于药物不良事件数 据集中。
【专利摘要】一种面向大数据的潜在药物不良反应数据挖掘方法,该方法包括以下步骤:A、抓取药物不良事件报告;B、对药物不良事件数据集的药物不良事件报告进行数据预处理;C、药名标准化;D、过滤已知不良反应;E、关联度计算;F、关联度排序。本发明适用于潜在药物不良反应的挖掘工作,不限于药物的种类;能够有效的发现上市药物的安全隐患,对提升用药者的健康水平具有重要的意义。
【IPC分类】G06F19-00
【公开号】CN104765947
【申请号】CN201510093861
【发明人】林鸿飞, 赵明珍
【申请人】大连理工大学
【公开日】2015年7月8日
【申请日】2015年3月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1