基于因果发现的药物不良反应信号发现方法及系统与流程

文档序号:32402358发布日期:2022-12-02 19:27阅读:83来源:国知局
基于因果发现的药物不良反应信号发现方法及系统与流程

1.本发明属于医疗信息技术领域,尤其涉及一种基于因果发现的药物不良反应信号发现方法及系统。


背景技术:

2.药物不良反应 (adverse drug reactions,adr) 可以定义为“与使用药物相关的干预措施导致的明显有害或令人不快的反应”。该定义包括由于错误、误用或滥用而发生的反应,对未经许可或在标签外使用的药物的可疑反应,以及正常剂量的药品的使用产生的反应。在过去的半个世纪里,检测潜在adr的主要手段是自发报告系统,它们在世界范围内被广泛应用,并在不良事件罕见且不常见(少于接受治疗的患者的 1%)以及该事件是典型的药物诱发病症时非常有效,但自发报告系统依然存在漏报、选择性报告、重复报告等情况。
3.目前我国已经基本建立了药物不良反应监测体系。授权公告号为cn104765947b的发明专利《一种面向大数据的潜在药物不良反应数据挖掘方法》和授权公告号为cn111402971b的发明专利《一种基于大数据的药物不良反应快速识别方法及系统》都公开了基于自发报告的药物不良事件大数据挖掘潜在药物不良反应的方法。随着医疗信息化水平的不断发展,越来越多的数据被积累在电子病历等医疗信息系统当中,这些数据将为基于自发报告系统的药物不良反应发现带来新的补充证据。基于电子病历数据的adr挖掘方法根据基本原理可以分为以下几类:基于比值失衡的方法、传统药物流行病学设计方法、处方序列对称分析、序贯统计检验、时序关联规则、有监督机器学习和树状扫描统计量等。授权公告号为cn110322944b的发明专利《药物不良反应智能检测方法、装置、系统和计算机装备》公开了一种利用多来源动态患者诊疗数据进行adr发现的方法,以明确的药物不良反应发生规则作为推理依据,重点在于面向患者个体的药物不良反应发生判定。
4.真实世界中的临床场景较临床试验更为复杂,医生根据医学知识和经验给药,比如经常根据患者特征存在个性化给药的情况,因而药物在临床过程中产生的作用往往会与上市前的临床试验体现出不同的特征。无论是基于药物不良反应自发报告系统的数据还是基于电子病历数据,现有的药物不良反应发现方法主要可以分为两类:一类是基于已经确定的药物和不良反应相关知识进行显式的推理和判断;一类是基于数据分析或数据挖掘的方法。前者只是对现有知识进行临床应用,而后者只能在一定程度上发现药物和不良反应之间的相关性,相关性并不意味着存在因果关系,这会大大降低发现的潜在信号成为新的临床证据的可能性。


技术实现要素:

5.本发明的目的在于针对现有技术的不足,提供一种基于因果发现的药物不良反应信号发现方法及系统。本发明利用电子病历数据发现药物不良反应信号的过程中引入因果关系,最大化的保留真实世界电子病历数据中的数据维度,构建包含因果效应的贝叶斯网
络结构,以及同时对用药干预和不良事件发生产生作用的混杂因素集,并基于该混杂因素集构建用药干预组与对照组,模拟随机对照实验,使得组间不良反应发生情况的对比具有因果意义,进而生成具有因果关系的药物不良反应信号。
6.本发明的目的是通过以下技术方案来实现的:根据本说明书的第一方面,提供一种基于因果发现的药物不良反应信号发现方法,该方法包括以下步骤:采集并清洗真实世界电子病历数据;选定目标药物和不良事件,将使用目标药物记为索引事件,将出现目标不良事件记为标志事件,根据发生索引事件或标志事件的患者人群构建患者队列;通过构建含有因果特性的贝叶斯网络,生成同时影响药物干预与不良反应发生的混杂因素集;基于混杂因素集构建干预组和对照组队列,模拟随机对照实验,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
7.进一步地,所述目标药物为单一药物,或者具有相同疗效的一类药物,或者具备相同性质的一类药物;所述不良事件使用诊断,或者一类特定的实验室检验结果,或者同时使用诊断和一类特定的实验室检验结果来定义。
8.进一步地,将发生索引事件或标志事件的患者人群定义为入组人群,定义入排标准筛选所述入组人群,筛选后的入组人群构成患者队列,患者队列中的患者数据构成入组患者数据集。
9.进一步地,所述混杂因素集的生成方法包括:将患者队列中的患者数据记为入组患者数据集,包含表示索引事件是否发生的特征、表示标志事件是否发生的特征,以及入组患者从电子病历数据中提取出来的其他特征;通过单因素逻辑回归方法,保留对索引事件或对标志事件的发生会产生影响的特征,形成初筛后特征集;将初筛后特征集中的特征作为贝叶斯网络的节点,根据k2算法从入组患者数据集中学习到一个贝叶斯网络结构,在贝叶斯网络结构学习过程中引入因果关系,经过多轮迭代得到每个节点的父节点集合,将特征和共同的父节点认为是同时对索引事件和标志事件是否发生产生作用的因素,生成混杂因素集。
10.进一步地,对k2算法的节点优先次序进行优化,具体为:采用带有惩罚项的互信息计算公式计算初筛后特征集中特征的信息量,将所有特征按照信息量进行降序排序,按排序分配节点优先度。
11.进一步地,对k2算法的每个节点的最大父节点个数进行优化,具体为:计算初筛后特征集中每个特征与其他所有特征互信息和平均互信息,每个特征与其他特征的互信息值大于平均互信息值的次数记为该特征对应节点的最大父节点个数。
12.进一步地,对于贝叶斯网络中的每个节点,初始化时父节点集合为空集,计算网络评分,其中为评分函数,然后进入搜索节点的父节点的循环;
循环内,当集合中节点的个数小于最大父节点个数时,将满足节点优先次序在之前且不在内的节点作为候选节点,在候选节点中选择网络评分最大的节点z,将其网络评分记为,若,将的值赋给,并令,进入下一轮迭代,直到的时候停止循环,从而得到每个节点的父节点集合。
13.进一步地,评分函数的计算公式如下:其中,为集合中的节点个数,为的所有可能取值的个数,为中所有节点的可能取值的个数;代表入组患者数据集d中特征取第k种取值的数据实例数量;代表入组患者数据集d中特征取第k种取值并且的特征取第 j种取值的数据实例数量,为的特征取第 j种取值的数据实例数量;为时间因果效应强度。
14.进一步地,将索引事件是否发生作为干预,将标志事件是否发生作为结局,根据混杂因素集,采用倾向性评分匹配方法控制进入干预组和对照组的入组人群,对比两组人群间结局事件发生情况,当平均不良反应发生增益大于零时,认为当前干预和结局之间有因果关系,即当前选定药物会引发不良反应。
15.根据本说明书的第二方面,提供一种基于因果发现的药物不良反应信号发现系统,该系统包括:用于采集并清洗真实世界电子病历数据的数据采集模块;用于发现具有因果关系的药物不良反应信号的药物不良反应发现模块;用于呈现信号发现结果的信号结果显示模块;所述药物不良反应发现模块利用上述基于因果发现的药物不良反应信号发现方法,构建患者队列,构建含有因果特性的贝叶斯网络,生成混杂因素集,基于混杂因素集构建干预组和对照组,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
16.本发明的有益效果是:本发明提出的基于贝叶斯网络的混杂因素集构建方法从数据出发,无需人工接入和先验知识,最大程度保留真实世界中存在的混杂因素,基于这些混杂因素来构建观察性研究中的对照组和干预组入组人群,以此得到的药物-不良反应之间的关系可以被认为是具备因果效应的,在临床指导中是更加有价值的。
附图说明
17.图1为一示例性实施例提供的基于因果发现的药物不良反应信号发现方法流程图;图2为一示例性实施例提供的包括3维特征的贝叶斯网络结构示意图;图3为一示例性实施例提供的贝叶斯网络学习流程图;图4为一示例性实施例提供的基于因果发现的药物不良反应信号发现系统结构
图。
具体实施方式
18.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
19.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
20.如图1所示,本发明实施例提供一种基于因果发现的药物不良反应信号发现方法,包括以下步骤:步骤1:数据采集和清洗在电子病历数据中获取真实世界患者数据、用药数据、诊断数据、手术数据、实验室检验结果等,数据发生时间不做处理,保留原始日期和时间,具体来说获取的信息包括:

人口统计学信息:性别、年龄、民族;

医疗基本信息:过敏史、家族病史、血型;

诊疗信息:诊断记录、化验结果、用药记录、手术记录。
21.首先统一数据编码:性别、年龄、民族、过敏史、血型、化验结果、用药信息使用编码为自设编码,编码形式不限,诊断、家族病史使用icd-10编码,手术信息使用icd-9-cm编码。
22.统一数据编码后对数据进行规整合并和转化:性别、民族、过敏史、血型数据根据自然情况填充为分类变量数据;诊断相关特征、手术信息根据编码填充为二分类变量,即发生过记为1,反之为0;化验结果根据实际情况填充为多分类变量,即超过相应指标正常值上限的记为“偏高”,低于正常值下限的记为“偏低”,在正常值范围内的记为“正常”;对年龄数据进行分箱,分为4组,分别为“小于18岁”、“18至44岁”、“45岁至59岁”以及“60岁以上”。对于缺失数据,性别、民族、年龄、血型缺失的情况下,剔除整个样本;诊断相关数据、手术信息缺失视作未发生,记为0;化验结果数据缺失视作结果正常。
23.综上,将采集到的电子病历数据清洗转化成后续可以用于药物不良反应发现的形式。
24.步骤2:构建患者队列首先选定要分析的目标药物和不良事件。例如,选定目标药物为“伏立康唑”,不良事件为“肝毒性”。
25.目标药物可以是单一药物也可以是具有相同疗效或具备相同性质的一类药物,当选定一类药物为目标药物后,选定的多种药物视作同种药物。
26.不良事件可以使用诊断或一类特定的实验室检验结果或同时使用诊断和一类特定的实验室检验结果来定义。例如,“肝毒性”的定义可以根据临床实际或临床指南,使用诊断“药物性肝损伤”或者以下由诊断与实验室检验结果组成的复合规则来定义:谷丙转氨酶 ≥ 5
ꢀ×ꢀ
正常值上限(uln);谷丙转氨酶 ≥ 3
ꢀ×ꢀ
uln伴 总胆红素 >2
ꢀ×ꢀ
uln;碱性磷酸酶 ≥ 2
ꢀ×ꢀ
uln,不伴骨病且有谷氨酰转肽酶升高;满足上述规则其中一条,即可认为发生目标不良事件。
27.本发明中,将首次使用目标药物和首次使用目标药物后首次出现目标不良事件定
义为主要事件发生节点,首次使用目标药物的日期记为索引日期,使用目标药物记为索引事件;首次出现目标不良事件记为标志事件,相应日期记为标志日期。发生索引事件或标志事件的患者人群定义为入组人群,在此基础上可进一步定义一系列具体的入排标准(排除标准),用于进一步筛选入组人群,也可以不定义。筛选后的入组人群构成患者队列,患者队列中的患者数据记为入组患者数据集。
28.步骤3:基于因果发现的药物不良反应信号发现3.1基于贝叶斯网络的混杂因素集构建定义入组患者数据集为,包含n个特征,其中为表示索引事件是否发生的特征,为表示标志事件是否发生的特征,为入组患者从电子病历数据中提取出来的其他特征。特征的值被存储在特征集va中,特征发生的时间被存储在时间集t中。构建混杂因素集的步骤如下(若无特别说明,以下步骤中所属特征x的值均取自va):1)特征相关性初筛。将分别与和进行单因素逻辑回归,剔除与和对应的显著性水平均大于设定阈值的特征,保留下来的特征均为对索引事件或对标志事件的发生会产生影响的特征,新的特征集包含个特征,记为初筛后特征集。
29.2)特征信息量计算。计算初筛后特征集s中个特征的信息量,采用带有惩罚项的互信息计算公式完成,强调与之间的关系,同时弱化中特征之间的相互关系。设为集合去掉特征后剩余特征的集合,则特征 的信息量计算公式如下:其中,为权重因子,一般可以由初筛后特征集包含的特征数量规模决定,可以取。对和来说,他们与自身的信息量为1,因此对应信息量计算公式如下:来说,他们与自身的信息量为1,因此对应信息量计算公式如下:
3)贝叶斯网络结构学习。本发明将因果特性引入混杂因素筛选的过程,改进传统的k2算法从入组患者数据集中学习到一个贝叶斯网络结构,尽可能精准的表示数据集中各特征之间的关系。k2算法是一种基于评分的贝叶斯网络结构学习算法,为缩小搜索空间,需要向算法提供先验的节点优先次序以及每个节点的最大父节点个数。本发明根据入组患者数据集的特点,对上述两个关键参数的确定过程提出改进,具体如下。
30.首先,优化的节点优先次序计算。将所有特征按照上一步骤中的特征信息量进行降序排序,排名第一的特征分配节点优先度1,排名第二的特征分配节点优先度2,以此类推。若多个特征信息量相等,记为并列,分配的节点优先度相同。若m个节点优先度相同时,分别计算这些特征与之间的互信息之和,即对降序排列,排名第一的特征节点优先度不加分,排名第二的特征节点优先度增加,以此类推,从而得到各特征的节点优先度排序。
31.第二,优化的最大父节点个数。改变原有k2算法中对每个特征使用相同最大父节点个数的方式,本发明使用动态算法,首先计算每个特征与其他所有特征互信息和平均互信息,特征与的互信息计算公式如下:特征的平均互信息计算公式如下:每个特征与其他特征的互信息值大于值的次数作为该节点父节点个数的估计值,记为该节点的最大父节点个数。
32.最后,贝叶斯网络结构的学习。在贝叶斯网络结构的学习过程中,本发明引入了因果关系的必备性质之一,即“因”的发生在“果”之前。所以,本发明要学习到的网络是一个维贝叶斯网络,记为,其中,是维特征向量;是一个有向无环图,是有向无环图的节点,是有向无环图的边,代表特征之间的依赖关系是网络的参数,其中,代表在图g中所有父节点的集合,代表中所有节点的可能取值,为的所有可能取值的个数,是特征的第k种取值,是的第j种取值,就是在特征所有父节点取值为的条件下,取值为的概率。
33.通过一个示例来解释的含义,图2为一个贝叶斯网络结构示意,共包含3维特征,即。令特征,对于“肝功能异常”节点,它具有“肝移植术后”和“伏立康唑”两个父节点,即。父节点可能的取值包含4种状况,即“非肝移植术后、未服用伏立康唑
”ꢀ“
肝移植术后、非服用伏立康唑
”ꢀ“
非肝移植术后、服用伏立康唑”和“肝移植术后、服用伏立康唑”,对应的数据可表示为有4种取值,,;“肝功能异常”节点本身具有2种可能性,即“肝功能正常”“肝功能异常”,对应的数据表示为有2种取值:0和1,。
34.如图3所示,对n中的每一个节点,初始化时设它的父节点集合为空集,计算集合的网络评分,然后进入搜索节点的父节点的循环。循环内,当集合中节点的个数小于最大父节点个数时,对满足节点优先次序在之前且不在内的节点z,计算,取的节点z,比较与的大小,若,将的值赋给,并令,进入下一轮迭代,直到的时候停止循环,从而得到每个节点的父节点集合。
35.上述计算过程中的评分函数采用改进的带有惩罚项的贝叶斯信息标准评分。由于本发明前序优化估计的最大父节点个数可能大于实际父节点个数,这会为网络带来多余的因果关系,因此本发明使用的评分函数按以下公式计算:其中,为集合中的节点个数,代表数据集d中特征取第k种取值的数据实例数量代表数据集d中特征取第k种取值并且的特征取第 j种取值的数据实例数量,为的特征取第 j种取值的数据实例数量;代表中所有节点的可能取值的个数;为时间因果效应强度,它的大小反应了“因”发生在“果”之前这一因果效应的强弱,对中的每一个特征s,计算发生时间的实例比例,当这一比例大于设定阈值(本实施例中)时,记,反之。的计算方法为:评分函数计算公式中,第二项为惩罚项,代表网络的复杂程度,的加入也可以在一定程度上消除最大父节点估计值偏大带来的网络过拟合问题。
36.4)药物-不良反应信号发现混杂因素集构建。上面计算得到的贝叶斯网络中,共同的父节点被认为是同时对索引事件和标志事件是否发生产生作用的因素,在后续的药物-不良反应信号因果性评价中作为混杂因素集。
37.3.2基于倾向性评分匹配的药物-不良反应信号因果关系评估倾向性评分匹配是临床观察性研究中经常使用的一种控制混杂偏移的技巧,是具有特定特征的个体被分配去干预组(相对于对照组)的可能性,即,其中,z为干预,所有干预组数据z=1,对照组数据z=0,x为给定条件。真实世界观察性研究中,倾向性评分匹配的方法可以使构建的干预组与对照组队列样本的混淆因素被良好的控制,从而达到模拟随机对照实验的目的,得到具有因果关系的临床结论。
38.本发明中我们认为索引事件是否发生为干预z,标志事件是否发生为结局y。根据基于贝叶斯网络构建的混杂因素集,采用倾向性评分匹配的方法控制进入干预组和对照组的入组人群,对比两组人群间结局事件发生的情况,即可以得到具有因果效应的药物-不良反应信号结果,具体方法如下:首先,构建干预组队列,筛选所有发生索引事件的患者入组,根据混杂因素集,利用该队列患者混杂因素数据构建得到干预组混杂因素数据集,使用逻辑回归计算干预组队列中各样本倾向性得分;第二,构建对照组队列,筛选所有未发生索引事件的患者入组,根据混杂因素集,利用该队列患者混杂因素数据构建得到对照组混杂因素数据集,使用逻辑回归计算对照组队列中各样本倾向性得分;第三,基于患者相似性的分层倾向性评分匹配。将干预组倾向性评分降序排序,以第三,基于患者相似性的分层倾向性评分匹配。将干预组倾向性评分降序排序,以为间隔分为个倾向性评分区间。对照组按相同方法分为若干倾向性评分区间。对每一个干预组中的样本case,在对照组样本对应倾向性评分区间中选择与case本身距离最小的样本作为匹配,即选择与case样本对应的患者最相似的患者样本作为匹配,由匹配得到的样本,重新组成对照组样本。假设干预组/对照组混杂因素数据集包含c个混杂因素特征,样本i和j之间的距离采用如下距离计算公式:其中,如果样本i或j没有第f个特征的度量值,则指示项(本发明在数据清洗的过程中完成数据填补,故不存在上述情况);否则,指示项。为第f个特征对i和j之间的相异度的贡献。对于二分类特征,只有两种状态,且两种状态具有同等价值和相同的权重。当样本i和样本j的对应二分类特征值相同时,被置为0;反之被置为1。对于多分类特征,是二元特征的推广,可以取多于两个状态值。类似于二元特征,本发明定义,当样本i和样本j的第f个属性特征值相同时,被置为0;反之被置为1。
39.第四,计算平均不良反应发生增益asg,计算公式如下:
其中,e表示求期望,和分别代表对照组和干预组中患者人数,对于患者i,表示标志事件发生情况,当发生标志事件时,,反之。本实施例中,所以asg的计算结果即为干预组中发生标志事件(不良反应)的患者人数减去对照组中发生标志事件(不良反应)的患者人数,再除以干预组人数。当asg》0时,认为当前干预和结局之间有因果关系,即当前选定药物会引发不良反应。
40.如图4所示,本发明还提供一种基于因果发现的药物不良反应信号发现系统实施例,该系统包括:用于采集并清洗真实世界电子病历数据的数据采集模块;用于发现具有因果关系的药物不良反应信号的药物不良反应发现模块;用于呈现信号发现结果的信号结果显示模块;其中,药物不良反应发现模块为本发明核心模块,利用上述基于因果发现的药物不良反应信号发现方法,构建患者队列,构建含有因果特性的贝叶斯网络,生成混杂因素集,基于混杂因素集构建干预组和对照组,评价干预组和对照组之间不良反应发生差异,生成具有因果关系的药物不良反应信号。
41.本发明不局限于已经存在的药物-不良反应关系,利用真实世界电子病历数据发现药物-不良反应信号,可以识别在临床试验阶段没有表现出来的药物不良反应,对临床活动安全开展具有重要意义。
42.本发明不局限于发现药物-不良反应之间的相关性关系,通过将因果特性引入贝叶斯网络构建过程,生成最全面的混杂因素集,并通过控制这些混杂因素达到模拟随机对照试验的效果,实现对药物-不良反应因果关系的评估和验证。
43.以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1