一种可解释的基于文献知识图谱的药物不良反应发现方法

文档序号:25986201发布日期:2021-07-23 20:54阅读:164来源:国知局
一种可解释的基于文献知识图谱的药物不良反应发现方法

本发明涉及药物信息学和生物信息学技术领域,尤其涉及一种可解释的基于文献知识图谱的药物不良反应发现方法。



背景技术:

药物不良反应是导致患者严重发病率和死亡率的原因,也是医疗系统经济负担的来源。目前,药源性疾病已经成为第5位易导致死亡的疾病,全球约有1/3的死亡病例是由治疗药物使用不当所致。特别是对于肿瘤患者,他们使用抗肿瘤药物时会有相对较高的药物不良反应发生率,并且更容易经历罕见和严重的不良反应,会严重影响他们的生活质量。但由于样本量和临床试验的可推广性有限,在上市前对于罕见和严重不良反应的识别受到限制,所以探索潜在的不良反应对于降低发病率至关重要。近年来,随着计算医学的飞速发展与应用,越来越多的研究者认为可以运用计算医学来提高临床医疗辅助决策服务,但通常采用的基于神经网络的推理不具有可解释性。



技术实现要素:

(一)要解决的技术问题

基于上述问题,本发明提供一种可解释的基于文献知识图谱的药物不良反应发现方法,致力于通过计算医学的技术手段探索药物潜在的不良反应,解决药物潜在的不良反应不易识别的问题。

(二)技术方案

基于上述的技术问题,本发明提供一种可解释的基于文献知识图谱的药物不良反应发现方法,包括以下步骤:

s1、从医学文献数据中抽取四种实体:疾病、生物标志物、药物和不良反应;

s2、使用所述四种实体,利用朴素贝叶斯模型,构建文献知识图谱:所述文献知识图谱包括顶点和边,所述顶点包含四种实体类型的顶点,即疾病、生物标志物、药物和不良反应类型的顶点,所述边代表两个顶点之间的关系,每条边连接两种不同类型的顶点,边上的权重表示两个顶点之间的相关性,所述边上的权重通过重要性指标描述;

s3、基于文献知识图谱中的药物不良反应对比药物说明书,发现潜在的不良反应;

s4、基于文献知识图谱对所述潜在的不良反应提供合理的生物标志物路径解释:使用深度优先搜索算法用于查找药物与不良反应之间的每条路径,提取与药物前1%相关的生物标志物和该药物对应的潜在的不良反应之间的路径,从而为潜在的不良反应提供合理的生物标志物路径解释。

进一步的,步骤s1还包括,将抽取的实体进行以下处理:将带有否定含义的实体以及出现频率不超过50次的实体去除,其余实体被视为与每个摘要相关的实体。

进一步的,步骤s1中,根据分类描述确定疾病类型实体和药物类型实体,根据umls中的who源字典进行构建不良反应类型实体,根据生物标记物的定义构建生物标记物类型实体。

进一步的,步骤s2中,通过计算疾病i与生物标志物j之间的重要性指标来说明每两个顶点间的关系,疾病i与生物标志物j之间的重要性指标为:

imptnb=log(p(xi=1|yj=1))-log(p(xi=1|yj=0))

其中xi的取值为0或1,分别代表生物标志物i不出现或出现,yi的取值为0或1,分别代表疾病j不出现或出现,p(.)通过朴素贝叶斯模型求得;重要性指标大于一定阈值,则认为该生物标志物i和疾病j之间是存在相关性的,即存在边,且相关性即求得的重要性指标,否则不存在边。

进一步的,所述阈值为零,重要性指标为正则存在一个边,边上的权重通过重要性指标描述,重要性指标为负则不存在一个边。

进一步的,步骤s3包括,从文献知识图谱中收集所有药物并确定相应的不良反应以形成药物不良反应对,将每个药物对应的不良反应与该药物说明书内容比对,发现药物说明书未报道的不良反应,并以临床数据验证,得到潜在的不良反应。

进一步的,步骤s4中,针对每个药物,提取与药物前1%相关的生物标志物,再将所述与药物前1%相关的生物标志物分别与该药物对应的潜在的任一不良反应的相关性进行对比,其中相关性最大的生物标志物最有可能介导了该药物导致该潜在的不良反应的发生。

本发明还公开了一种可解释的基于文献知识图谱的药物不良反应发现系统,包括:

至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行所述的可解释的基于文献知识图谱的药物不良反应发现方法。

本发明还公开了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行所述的可解释的基于文献知识图谱的药物不良反应发现方法。

(三)有益效果

本发明的上述技术方案具有如下优点:

(1)本发明采用文献知识图谱挖掘疾病、生物标志物、药物和不良反应之间的相关性,充分发现药物潜在的不良反应,并为其提供合理的生物标志物路径解释,为药物不良反应的发现提供了可靠的方法,为药物不良的机制研究提供了依据;

(2)本发明能根据潜在的不良反应和其生物标志物路径解释,更合理的选择使用药物,对生物医学文献挖掘新兴领域的研究有一定的参考价值,并为不良反应的机制研究提供动力。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:

图1为本发明的可解释的基于文献知识图谱的药物不良反应发现方法的流程示意图;

图2为本发明实施例“肿瘤-生物标志物”知识图谱部分示意图;

图3为本发明实施例对疾病和生物标志物进行关系建模的流程图;

图4为本发明实施例抗肿瘤药物奥西替尼与其中一种不良反应的可解释性示意图;

图5为本发明实施例的不良反应发现的一致性与共现性分析方法的比较。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

本发明的一种可解释的基于文献知识图谱的药物不良反应发现方法如图1所示,包括以下步骤:

s1、从医学文献数据中抽取四种实体:疾病、生物标志物、药物和不良反应;

本发明实施例中疾病为癌症,从medline即国际性综合生物医学信息书目数据库下载1928-2020年以“癌症治疗”为关键词的论文摘要,并从中提取四种实体:肿瘤、生物标志物、药物和不良反应。使用umls即计算机化的情报检索语言集成系统提供的metathesaurus2020aa版本作为实体抽取的字典,使用针对医学自由文本进行信息抽取的apache开源工具ctakes作为实体抽取工具。带有否定含义的实体以及出现频率不超过50次的实体被去除,其余实体被视为与每个摘要相关的实体。

其中,t191的分类描述是“neoplasticprocess”(表2),因此我们将其纳入肿瘤类型节点。t121和t200的类别描述分别为“pharmacologicsubstance”和“clinicaldrug”,因此我们将其归入药物类型节点。对于不良反应类型节点,我们使用umls中的who(全称为who-art,who-artisusedforcodingclinicalinformationrelatedtoadversedrugreactions.)源字典进行构建,因为who用于编码与药物不良反应相关的临床信息(表1)。最后,对于生物标记物类型节点,我们参考了生物标记物的定义,并将表2中除上述三种类型节点之外的类别纳入生物标记物类型节点。

表1.用于构建字典的数据源

表2.用于构建字典的概念分类

s2、使用所述四种实体,利用朴素贝叶斯模型,构建文献知识图谱:

使用文献提取出的所述实体来构建“肿瘤-生物标志物”知识图谱,该知识图谱由顶点和边构成,如图2所示,顶点包含四种实体类型的顶点,即肿瘤、生物标志物、药物和不良反应;边为无向加权边,代表两个顶点之间的关系,每条边连接两种不同类型的顶点,边上的权重表示两个顶点之间的相关性,利用根据朴素贝叶斯模型计算的重要性指标求得。

知识图谱是一种数据模型,它将事实表示为节点以及节点之间的关系。在一个通用的医学信息网络中,诸如疾病、药物、生物标志物或治疗等对象都可以通过不同类型的参照关系联系在一起,这使得知识的发现能够以传统药理学实验或临床试验无法达到的规模和速度进行。具体构建方法如下:

s2.1、处理每个文献摘要中实体出现的情况,若出现为1,未出现则为零;

s2.2、使用朴素贝叶斯模型分别计算每两个实体之间的相关性;

利用朴素贝叶斯模型来发现节点之间的相关性,朴素贝叶斯模型同时结合了先验概率和后验概率,既避免了仅使用先验概率产生的主观偏差,又避免了单独使用样本信息产生的过拟合现象。每个关系的计算方法是相同的,主要通过计算肿瘤与生物标志物之间的关系来说明该模型的原理。通过最大似然估计学习参数,我们学习了每个肿瘤的模型,并用一个重要性指标来确定肿瘤与生物标志物之间是否存在相关性:

imptnb=log(p(xi=1|yj=1))-log(p(xi=1|yj=0))

其中xi的取值为0或1,分别代表生物标志物i不出现或出现,yi的取值为0或1,分别代表肿瘤j不出现或出现,p(.)通过朴素贝叶斯模型求得。

s2.3、当两个实体之间的相关性大于一定阈值时,即视作两个实体之间存在一条边;

重要性指标大于一定阈值,则认为该生物标志物i和肿瘤j之间是存在相关性的,本实施例中阈值为零,重要性指标为正则存在一个边,边上的权重通过重要性指标描述,重要性指标为负则不存在一个边。该重要性度量选取的原因是,如果一个生物标志物的出现使得观察到肿瘤的可能性更大,就更有信心这两者之间存在一个边。对疾病和生物标志物进行关系建模的工作流程图如图3所示。

s3、基于文献知识图谱中的药物不良反应对比药物说明书,发现潜在的不良反应:

从文献知识图谱中收集所有药物并确定相应的不良反应以形成药物不良反应对,将每个药物对应的不良反应与该药物说明书内容比对,发现药物说明书未报道的不良反应,并以临床数据验证,得到潜在的不良反应。

表3表示服用奥西替尼后8位患者在不同时间出现的不良反应,其中展示了奥西替尼药物官方手册中未提及,但tbkg(tumor-biomarkerknowledgegraph肿瘤-肿瘤因子知识图谱)中有提及的不良反应。例如,患者8在服用奥西替尼一周后出现需要透析的急性肾功能衰竭,这一不良反应未被说明书报道,从而发现说明书未报道而临床实际却发生的不良反应,即潜在的不良反应。

表3.服用奥西替尼后8位患者在不同时间出现的不良反应

s4、基于文献知识图谱对潜在的不良反应提供合理的生物标志物路径解释:

使用深度优先搜索算法用于查找药物与不良反应之间的每条路径,提取与药物前1%相关的生物标志物和该药物对应的潜在的不良反应之间的路径,从而为潜在的不良反应提供合理的生物标志物路径解释。

针对每个药物,提取与药物前1%相关的生物标志物,再将所述与药物前1%相关的生物标志物分别与该药物对应的潜在的任一不良反应的相关性进行对比,其中相关性最大的生物标志物最有可能介导了该药物导致该潜在的不良反应的发生。

图4显示了与奥西替尼前1%相关的生物标志物和部分不良反应之间的路径。例如,奥西替尼“osimertinib”与前1%相关的生物标志物即细胞毒颗粒蛋白“cytotoxicgranuleprotein”、表皮生长因子受体“epidermalgrowthfactorreceptor”、巨噬细胞活性因子“macrophage-activatingfactors”的相关性分别为3.49、3.64、4.59,这三种生物标志物即肿瘤因子与不良反应肾硬化“nephrosclerosis”的相关性分别为5.11、1.44、6.25,因此可以得出,与表皮生长因子受体和细胞毒颗粒蛋白相比,巨噬细胞活性因子更有可能介导了奥西替尼导致该肾硬化不良反应的发生。

我们以与药物奥西替尼“osimertinib”相关的生物标志物和不良反应为例来显示tbkg结果。奥西替尼“osimertinib”与其中一种不良反应--肾硬化“nephrosclerosis”之间的相关性为4.31。相关结果意味着在出现奥西替尼“osimertinib”的情况下,肾硬化“nephrosclerosis”的可能性为10.4%,而在没有出现奥西替尼“osimertinib”的情况下,肾硬化的可能性为0.5%。相关性越高,排除了其他因素后的奥西替尼“osimertinib”会引起不良反应的可能性越大。

在现有技术中,也存在共现性分析方法,本发明共包括775种不良反应,根据我们文献知识图谱模型的计算,对于奥西替尼最重要的不良反应排序如下:皮肤干燥,甲沟炎,视野缺损,间质性肺病等。我们的模型与奥西替尼官方手册中的报告具有一定的一致性(kappa=0.68),并且比共现性分析方法(kappa=0.4)更好,如图5(a)所示。与共现分析方法相比,本模型具有更好的特异性,更有利分析出和药物密切相关的但区别于其它药物的特异内容,如图5(b)所示。

综上可知,通过上述的一种可解释的基于文献知识图谱的药物不良反应发现方法,具有以下优点:

(1)本发明采用文献知识图谱挖掘疾病、生物标志物、药物和不良反应之间的相关性,充分发现药物潜在的不良反应,并为其提供合理的生物标志物路径解释,为药物不良反应的发现提供了可靠的方法,为药物不良的机制研究提供了依据;

(2)本发明能根据潜在的不良反应和其生物标志物路径解释,更合理的选择使用药物,减少药源性疾病的发生,对生物医学文献挖掘新兴领域的研究有一定的参考价值,并为不良反应的机制研究提供动力。

最后需要说明的是,上述的方法可以转换为软件程序指令,既可以使用包括处理器和存储器的系统来运行实现,也可以通过非暂态计算机可读存储介质中存储的计算机指令来实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1