一种面向大数据的潜在药物不良反应数据挖掘方法

文档序号：8445742阅读：1476来源：国知局

一种面向大数据的潜在药物不良反应数据挖掘方法
【技术领域】
[0001] 本发明涉及数据挖掘方法领域，涉及一种面向大数据的潜在药物不良反应数据挖掘方法。
【背景技术】
[0002] 药物不良反应（AdverseDrugReactions，简称ADRs)已经成为医学界和民众关注的热点，用药安全问题日益得到全社会的重视。尽管药物上市前会进行相应的临床试验，但是由于人群的数量及试验周期等限制，导致临床试验无法揭露药物所有的不良反应。从而造成具有潜在药物不良反应的新药流入市场，对公众健康产生了巨大的威胁。因此，如何挖掘药物的不良反应具有重大的理论价值和实用价值。
[0003] 对于上市药物潜在不良反应挖掘的研宄，主要依托于医院提供的电子病例以及药物不良反应自发报告系统所收集的药物不良事件报告。医院的电子病历系统具有完整的、格式化的病人信息记录，但是由于隐私保护等原因，这些信息外界是无法得到的。经过多年的收集，药物不良事件自发报告系统已积累了大量的药物不良事件报告，这些不良事件报告来自医生或者病人，其包含的药物不良反应关系尚未得到医学上的验证。经过匿名化等隐私保护处理，这些不良事件报告对外公开，为科研人员提供了宝贵的数据资源。而大多现有的研宄主要针对其中的某类药物和某些不良反应进行潜在关系的挖掘，其泛化性能并不尚。

【发明内容】

[0004] 本发明的目的是提供一种可靠性强，适用于潜在药物不良反应的挖掘与预警的面向大数据的潜在药物不良反应数据挖掘方法。
[0005] 本发明解决现有技术问题所采用的技术方案：一种面向大数据的潜在药物不良反应数据挖掘方法，其特征在于，该方法包括以下步骤：
[0006] A、抓取药物不良事件报告：在本地构建药物不良事件数据集，利用爬虫技术从已知的药物不良事件报告数据库中抓取包含有药名文本数据的药物不良事件报告，并以字符串形式存储于所述药物不良事件数据集中；所述药名文本数据为出现在药物不良事件报告的药名域中的文本数据。
[0007] B、对药物不良事件数据集的药物不良事件报告进行数据预处理；所述数据预处理过程包括以下步骤：
[0008]Bl、药名文本数据规范化：利用正则表达式对所述药物不良事件报告中的药名文本数据进行规范化；
[0009] B2、生成候选药名片段：对于规范化后的药名文本数据中所包含有' + 符号的药名文本，通过' + V'符号对药名文本进行切分，以形成候选药名片段；
[0010] B3、基于频率的候选药名片段去噪：
[0011] 在步骤B2所形成的候选药名片段中所存在的无对应药名的文本数据，预设最小频率阈值，并将出现次数小于该阈值的药名片段从候选药名片段中过滤掉，得到药物名称列表；
[0012] C、药名标准化：利用生物医学命名实体识别技术，对药物名称列表中的药物名称进行药名标准化；药名标准化的具体方法为：通过利用MetaMap系统对药物名称列表进行生物医学实体识别，并将识别到的生物医学实体映射到UMLS的超级叙词表中形成不良反应药物列表（dl,d2,…，dm)和不良反应列表（al,a2,…，an);
[0013]D、过滤已知不良反应：对于步骤C得到的不良反应药物列表（dl，d2,…，dm)和不良反应列表（al，a2,…，an)，在每份药物不良事件报告中，将不良反应药物列表中的药物di的已知不良反应aj从不良反应列表中去除，得到过滤后的不良反应列表（&1，&2，~ ，aj-1,aj+1, ...，am)；
[0014]E、关联度计算：包括以下步骤：
[0015]E1、在已知的药物不良事件报告数据库中，统计不良事件药物列表中药物di出现的次数、不良反应aj出现的次数以及该药物di和不良反应aj的共现次数；
[0016]E2、计算药物di出现的情况下不良反应aj出现的条件概率p(aj|di)，和不良反应 aj出现的情况下药物di出现的条件概率p(di|aj);
【主权项】
1. 一种面向大数据的潜在药物不良反应数据挖掘方法，其特征在于，该方法包括以下步骤： A、抓取药物不良事件报告：在本地构建药物不良事件数据集，利用爬虫技术从已知的药物不良事件报告数据库中抓取包含有药名文本数据的药物不良事件报告，并以字符串形式存储于所述药物不良事件数据集中；所述药名文本数据为出现在药物不良事件报告的药名域中的文本数据； B、对药物不良事件数据集的药物不良事件报告进行数据预处理；所述数据预处理过程包括以下步骤： B1、药名文本数据规范化：利用正则表达式对所述药物不良事件报告中的药名文本数据进行规范化； B2、生成候选药名片段：对于规范化后的药名文本数据中所包含有' + 符号的药名文本，通过' + V'符号对药名文本进行切分，以形成候选药名片段； B3、基于频率的候选药名片段去噪：在步骤B2所形成的候选药名片段中所存在的无对应药名的文本数据，预设最小频率阈值，并将出现次数小于该阈值的药名片段从候选药名片段中过滤掉，得到药物名称列表； C、药名标准化：利用生物医学命名实体识别技术，对药物名称列表中的药物名称进行药名标准化；药名标准化的具体方法为：通过利用MetaMap系统对药物名称列表进行生物医学实体识别，并将识别到的生物医学实体映射到UMLS的超级叙词表中形成不良反应药物列表（dl，d2，···，dm)和不良反应列表（al，a2，*"，an); D、过滤已知不良反应：对于步骤C得到的不良反应药物列表（dl，d2，···，dm)和不良反应列表（al，a2,…，an)，在每份药物不良事件报告中，将不良反应药物列表中的药物di的已知不良反应aj从不良反应列表中去除，得到过滤后的不良反应列表（&1，&2，··· ，aj-1, aj+1, ...，am)； E、关联度计算：包括以下步骤： E1、在已知的药物不良事件报告数据库中，统计不良事件药物列表中药物di出现的次数、不良反应aj出现的次数以及该药物di和不良反应aj的共现次数； E2、计算药物di出现的情况下不良反应aj出现的条件概率p (aj I di)，和不良反应aj 出现的情况下药物di出现的条件概率p(di|aj);
，其中，fre(di)为药物di出现的次数，fre(aj)为不良反应aj 出现的次数，fre (ai，dj)为药物di和不良反应aj的共现次数； E3、关联度计算：利用双条件概率乘积法，计算药物di和不良反应aj的关联度： sim(di, aj)=p(aj |di)*p(di |aj)； F、关联度排序：对于药物di，根据步骤E3的药物和不良反应之间的关联度sim(di, aj) 值，对所有的不良反应按照降序排列，取排列次序在前的不良反应作为药物di的潜在药物不良反应。
2. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法，其特征在于，所述已知的药物不良事件报告数据库为公共开放数据集或电子病历。
3. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法，其特征在于，在步骤B3中，预设最小频率阈值为100。
4. 根据权利要求1所述的一种面向大数据的潜在药物不良反应数据挖掘方法，其特征在于，对于格式上无法存储在传统的关系数据库中的药物不良事件报告，利用格式解析工具将药物不良事件报告转化为字符串形式按行以文本文件的方式存储于药物不良事件数据集中。
【专利摘要】一种面向大数据的潜在药物不良反应数据挖掘方法，该方法包括以下步骤：A、抓取药物不良事件报告；B、对药物不良事件数据集的药物不良事件报告进行数据预处理；C、药名标准化；D、过滤已知不良反应；E、关联度计算；F、关联度排序。本发明适用于潜在药物不良反应的挖掘工作，不限于药物的种类；能够有效的发现上市药物的安全隐患，对提升用药者的健康水平具有重要的意义。
【IPC分类】G06F19-00
【公开号】CN104765947
【申请号】CN201510093861
【发明人】林鸿飞, 赵明珍
【申请人】大连理工大学
【公开日】2015年7月8日
【申请日】2015年3月2日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林鸿飞;赵明珍;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：基于pml吸收边界的三维声波数值模拟方法
上一篇：一种供餐系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。