基于概念泛化的药品类风险特征挖掘的方法与流程

文档序号:21469882发布日期:2020-07-14 16:55阅读:346来源:国知局
基于概念泛化的药品类风险特征挖掘的方法与流程

本发明涉及一种数据挖掘方法,具体的说是一种基于概念泛化的药品类风险特征挖掘的方法,属于数据挖掘技术领域。



背景技术:

药品不良反应信号检测是目前国际上对上市后药品安全进行药物警戒的基本手段。主流的方法包括prr、mhra、ic、ror等比例失衡分析技术,取得了较好的研究成果,但这些方法主要用于“药品-不良反应”组合这类信号的检测,对药品类与不良反应累及系统器官之间关联信号的检测方法研究缺乏。本发明主要采用概念泛化的分层归纳技术,并且引入ic信号检测的方法,对药品类引起的不良反应进行针对性的泛化,泛化后对不同概念的数据进行分层处理,寻找数据依赖关系,使其分类比较合理,便于更好地与系统器官关联。



技术实现要素:

本发明的目的是提供一种基于概念泛化的药品类风险特征挖掘的方法,突破了现有的“药品-不良反应”信号挖掘的研究,基于我国adr监测报告数据,利用概念泛化和特征提取方法挖掘“药品类-累及系统器官”信号。

本发明的目的是这样实现的:一种基于概念泛化的药品类风险特征挖掘的方法,包括以下步骤:

步骤1)数据处理:以我国药品不良反应监测数据为原始adr数据,按照“药品-不良反应”组合进行汇总统计,标记总样本;

步骤2)药品的概念泛化与统计:按照我国《药品目录》中的分类标准并结合《中国药典》的药物信息,将总样本中的药品通用名泛化成所属的药品类,并统计出各药品类引起的各个不良反应频次;

步骤3)概念泛化后的数据组织:将原始adr数据按照“药品类-不良反应”组合重新组织并计算各组合的频次a,并基于频次a,分别计算b,c,d,构建各个组合的四格表:目标药物类与目标不良反应之间的频次为a、目标药物类与其他不良反应之间的频次为b、非目标药物类与目标不良反应之间的频次为c、非目标药物类与其他不良反应之间的频次为d,为检测“药品类-不良反应”关联信号挖掘奠定基础;

步骤4)信号检测:运用信号检测的ic方法对所述样本“目标药物类-目标不良反应”进行信号检测,求出所有“药品类-不良反应”之间的ic值;

步骤5)不良反应的概念泛化:对ic>0的“药品类-不良反应”阳性组合信号,将其“不良反应”按照who-art中的分类标准泛化为对应的累及系统器官损害,并将数据组织成药品类、不良反应和累及系统器官损害;

步骤6)特征提取:对上述步骤4)中求得的ic值按降序排列,并利用dcg(discountedcumulativegain)特征提取方法,计算药品类引起的每个累及系统器官损害的得分,以dcg得分来衡量“药品类”与“累及系统器官”之间的关联风险程度;

步骤7)结果验证:利用美国fda和我国cfda信息通报的数据对所述方法的结果进行验证。

作为本发明的进一步限定,步骤1)具体包括:

1.1)获取原始adr数据库,本研究中所有adr数据均来自于我国药品不良反应监测数据库;选取了江苏省药品不良反应报告数据;

1.2)使用microsoftvisualfoxpro对选取的数据进行相应数据拆分及预处理;从中得到有效记录,提取药品名称、不良反应名称两项记录属性值,获得药品种名称和对应的不良反应名称。

作为本发明的进一步限定,步骤2)中的泛化具体包括:

步骤2-1)取得初始数据集;

步骤2-2)扫描一遍以获得各属性不同取值的个数,同时对于某些属性值为空的属性可以直接删除;记录中空值较多的属性计算他们互相之间的相关性;

步骤2-3)进行属性消减工作,删除被认为是冗余属性,留下对决策起重要影响的相关属性;

步骤2-4)属性泛化,泛化过程是对每个具有大量属性值的属性进行概念提升,用其高层概念属性代替,泛化的结果是,不同的对象泛化后是等价,可以划分到一个等价类,对合并后的记录可以加相应的计数值,表示同一个等价类中记录的个数。

作为本发明的进一步限定,步骤4)的具体方法为:

4.1)ic值计算公式如下:

ic信号检测公式计算的是药品类-不良反应组合在单个的不良反应报告中出现的概率。把这个概率以是否读入数据为分界线分别称为先验概率和后验概率。其中先验概率和后验概率都不是固定的,它们是相对而言的,后验概率在下一次的数据训练时又会成为先验概率。它以一种因果关系的图模型来表达联合条件的概率分布,允许在变量的子集之间确定类条件的独立性与否;

上述公式中x表示的是目标药品类出现在报告中的次数,即a+b;y表示的是目标不良反应出现在报告中的次数,即a+c;当目标药品类和目标不良反应(x,y)同时组合出现时,即数量a;

4.2)计算出ic信号值:ic信号值的计算基于上述表3的四格表中的数据进行,运用公式1、2、3和4,求出所有“药品类-不良反应”之间的ic信号值。

作为本发明的进一步限定,步骤6)中的特征提取步骤具体包括:

第一步:对上述步骤4)中求得的ic信号值降序排列,筛选出ic>0的有效信号的数据集;

第二步:利用dcg方法,充分考虑排序位置i和reli(ic信号值),计算药品类引起的每个累及系统器官损害的得分,制作风险表,并降序排列。根据dcg得分来衡量“药品类”与“累及系统器官”之间的关联风险程度。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明将概念泛化技术和dcg特征提取的方法应用于我国adr监测数据,可挖掘出“药品类”与“累及系统器官”之间的关联信号。打破了传统“单个药品-单个不良反应”组合研究的局面,填补了对于“药品类”与“累及系统器官”之间关联研究的缺乏。实验获取的关联信号,可警示人们正确用药,保护好自己身体的各个系统器官;并且也为人群中患有基础性疾病的患者们,敲响警钟,谨慎用药。本发明为江苏省药品不良反应报告基于概念泛化的药品类风险特征挖掘提供了一种可参考的方法。

附图说明

图1为本发明的流程图。

图2为本发明的概念泛化示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

如图1所示的一种基于概念泛化的药品类风险特征挖掘的方法,包括以下步骤:

1)数据的采集与处理:

1.1)获取原始adr数据库,本研究中所有adr数据均来自于我国药品不良反应监测数据库;选取了江苏省药品不良反应报告数据;

1.2)使用microsoftvisualfoxpro对选取的数据进行相应数据拆分及预处理;从中得到有效记录,提取药品名称、不良反应名称两项记录属性值,获得药品种名称和对应的不良反应名称。

2)药品的概念泛化与统计:按照我国《药品目录》中的分类标准并结合《中国药典》的药物信息,运用概念泛化的技术将药品泛化成药品类,并统计出药品引起的各不良反应症状;

2.1)概念泛化的介绍;

2.1.1)泛化的原理:由具体的、个别的扩大为一般的,泛化过程如图2;泛化关系是类元的一般描述和具体描述之间的关系,具体描述建立在一般描述的基础之上,并对其进行了扩展;具体描述完全拥有一般描述的特性、成员和关系,并且包含补充的信息;一般描述被称作父,具体描述被称作子;

2.1.2)泛化的一般步骤:

步骤1:取得初始数据集;

步骤2:扫描一遍以获得各属性不同取值的个数,同时对于某些属性值为空的属性可以直接删除;记录中空值较多的属性计算他们互相之间的相关性;

步骤3:进行属性消减工作,删除被认为是冗余属性,留下对决策起重要影响的相关属性;

步骤4:属性泛化,泛化过程是对每个具有大量属性值的属性进行概念提升,用其高层概念属性代替。泛化的结果是,不同的对象泛化后是等价,可以划分到一个等价类。对合并后的记录可以加相应的计数值,表示同一个等价类中记录的个数;

2.2)按照我国《药品目录》中的分类标准结合《中国药典》中的药物分类信息,选取adr监测数据库中药品并概念泛化,对泛化后的药品类中各药品引起的不良反应及频次进行整合、相加,表示同一等价类中记录的个数。

表1概念泛化层次递进表(部分)

表1展示了部分药品概念泛化后的归属范畴,并且形象体现出了概念分层的性质;基于这种属性归纳方法,再利用概念层次对药品进行泛化归纳;一个概念分层定义一个映射序列,是将低层概念映射到一个高层概念。

3)概念泛化后的数据组织:将数据组织为药品类,不良反应以及相应的频次,制作四格表,内容为:目标药物类与目标不良反应之间的频次为a、目标药物类与其他不良反应之间的频次为b、其他药物类与目标不良反应之间的频次为c、其他药物类与其他不良反应之间的频次为d,为检测“药品类-不良反应”关联信号奠定基础;如下表2所示:

表2四格表

4)信号检测:通过ic信号检测方法对所述样本进行信号检测;

4.1)ic值计算公式如下:

ic信号检测公式计算的是药品类-不良反应组合在单个的不良反应报告中出现的概率。把这个概率以是否读入数据为分界线分别称为先验概率和后验概率。其中先验概率和后验概率都不是固定的,它们是相对而言的,后验概率在下一次的数据训练时又会成为先验概率;它以一种因果关系的图模型来表达联合条件的概率分布,允许在变量的子集之间确定类条件的独立性与否;

上述公式中x表示的是目标药品类出现在报告中的次数,即a+b;y表示的是目标不良反应出现在报告中的次数,即a+c;当目标药品类和目标不良反应(x,y)同时组合出现时,即数量a;

4.2)计算出ic信号值:ic信号值的计算基于上述表3的四格表中的数据进行,运用公式1、2、3和4,求出所有“药品类-不良反应”之间的ic信号值。

5)不良反应症状的概念泛化:将统计出的药品类引起的不良反应症状,与who-art药品不良反应术语集对应起来,并按照who-art中的标准,泛化成对应的系统器官损害,并将数据组织成药品类、不良反应和累及系统器官损害。不良反应与who-art术语集中累及系统器官损害的对应表;部分示例如表3所示:

表3不良反应与累及器官对应表(部分)

6)特征提取:利用不良反应泛化之后的数据组织形式:药品类别、不良反应与累及系统器官损害,建立药品类别与累及系统器官之间的间接联系;再利用dcg方法提取目标药品类中,被检测出来前p个累及系统器官损害的风险信号;

6.1)dcg方法的介绍

discountedcumulativegain方法简称dcg,是一种系统排序的方法,充分考虑了被检测到的文档相关度等级,以及它所在的位置信息;cgp(cumulativegain)表示前p个位置累计得到的效益或风险,公式:其中reli表示第i个文档的相关度(在本文里reli即表示检测到的ic信号值),i表示文档所在位置序号。假设每个位置按照从小到大的排序,它们的价值依次递减,则可以假设第i个位置的价值是那么排在第i个位置的文档所产生的效益就是:

常用来增加相关度影响比重的dcg公式如下:

6.2)特征提取的步骤;

第一步:对上述步骤4)中求得的ic信号值降序排列,筛选出ic>0的有效信号的数据集;

第二步:利用dcg方法,充分考虑排序位置i和reli(ic信号值),计算药品类引起的每个累及系统器官损害的得分,制作风险表,并降序排列。根据dcg得分来衡量“药品类”与“累及系统器官”之间的关联风险程度。

7)结果验证:利用美国fda和我国cfda信息通报的数据对所述方法的结果进行验证。

8)成果展示:

8.1)数据的预处理及结果:

为了验证本发明所提出的基于概念泛化的药品类和不良反应累及系统器官的关联研究的效果,我们在一定范围之内选取了喹诺酮类药品进行了一定的测试。本次测试数据来自江苏省药品不良反应自发报告数据库所提供的自发报告。自发报告原始样本数据如表4所示,其中每个自发报告所包含的信息有药品名称、不良反应名称;

表4喹诺酮类药品及其不良反应的原始数据

根据上述喹诺酮类药品的原始数据,我们对药品进行概念泛化,获得我们想要的实验数据格式;

表5喹诺酮类药品泛化示例表(部分)

8.2)ic信号检测:

根据上述喹诺酮类药品的数据,我们首先以ic信号检测方法提取有效信号,并将检测到的ic信号值降序排列,即表6的形式:

表6ic信号检测并处理后的数据

8.3)将不良反应泛化为累及系统器官损害,并将数据组织为药品类别、不良反应与累及系统器官损害,如表7的形式:

表7喹诺酮类药品的不良反应泛化为累及系统器官损害

8.4)特征提取:

以喹诺酮类药品为目标类药品,利用dcg方法提取出各累及系统器官损害的风险值,并按降序排列。

表8喹诺酮类药品累及系统器官损害的风险排序

8.5)构建药品不良反应通报数据集:

将美国fda和中国cfda(国家中心信息)通报的(药品,不良反应),构建药品不良反应通报数据集,为实验结果提供参照和检验的标准。

表9药品不良反应通报数据集

8.6)总结:我国cfda通报了喹诺酮类药品可引起全身性损害、皮肤及其附件损害和神经系统损害。本文使用ic信号检测和dcg特征值提取的方法,验证了我国cfda通报的喹诺酮类累及系统器官损害信息,如表8所示,即本文的实验结果。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1