药品知识图谱构建方法及系统与流程

文档序号:20949684发布日期:2020-06-02 20:03阅读:359来源:国知局
药品知识图谱构建方法及系统与流程
本发明涉及知识图谱
技术领域
,特别涉及一种药品知识图谱构建方法、系统以及一种计算机可读存储介质。
背景技术
:知识图谱本质上是语义网络(semanticnetwork)的知识库,也可以把知识图谱简单理解为多关系图。知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。在知识图谱里,我们通常用“实体”来表达图里的节点、用“关系/属性”来表达图里的“边”。实体指的是现实世界中的事物比如地名、概念、药物、成分、公司等,关系用来表达不同实体之间的某种联系,属性用于描述实体的内在特征,属性与关系有时可以互换。现有技术中,缺少较为优质的药品知识图谱,原因在于很多药品知识图谱构建方案中使用字符串匹配或者实体识别模型从药品说明书里抽取知识的方案,效果其实并不理想,不管是匹配还是实体识别,都会存在大量的错误数据和遗漏数据。实体识别技术首先需要人工标注样本,然后训练实体识别模型。药品标注的场景,十分复杂,需要几千至几万的样本标注量,实际效果也没有字符串匹配抽取的效果准确。医药行业是一个特殊的行业,数据错误和缺失都会造成很大的健康隐患,据统计数据显示,我国每年有250万人因为错误用药而损害健康,其中死亡的有20万人,是全国交通事故死亡人数的两倍,可见药品知识的准确性特别重要。技术实现要素:有鉴于此,本发明旨在提出一种药品知识图谱构建方法和系统,能够便捷高效的构建药品知识图谱,构建过程中通过对药品说明书数据的融合/合并,减少了需要处理的信息量,并且通过对模板匹配和人工标注结果进行融合处理,避免了药品知识图谱中的表述不一致和错误。为达到上述目的,本发明的技术方案是这样实现的:一种药品知识图谱构建方法,包括:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;确定用于反映所述实体的知识要素间关系的关系/属性标记;获取药品说明书数据;建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;融合并保存所述三元组,得到所述药品知识图谱。进一步地,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。进一步地,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。进一步地,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。进一步地,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。本发明还公开了一种药品知识图谱构建系统,包括:药品知识体系构建模块,用于:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;以及,确定用于反映所述实体的知识要素间关系的关系/属性标记;药品知识获取模块,用于:获取药品说明书数据;以及药品知识建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;药品知识融合模块,用于融合所述三元组;药品知识保存模块,用于保存所述三元组以得到所述药品知识图谱。进一步地,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。进一步地,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。进一步地,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。进一步地,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。本发明还公开了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例所述的药品知识图谱构建方法。本发明至少具有以下有益效果:本发明通过匹配模板和人工标注两种方式单独或组合来对药品说明书数据进行处理得到三元组,在人工标注之前对药品说明书数据进行简化融合,大大减少了文本的信息量,降低了人工标注的工作量;在匹配/标注完成后通过对齐处理、冲突处理等消除了文本中表述的不一致和内容的冲突,保证了文本的准确性。本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施方式及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为本发明实施方式所述的药品知识图谱构建方法的流程图;图2为本发明实施方式所述的确定所述实体及关系/属性标记的方法流程图;图3为本发明实施方式所述的三元组获取流程图。具体实施方式以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。如图1所示,本发明公开了一种药品知识图谱构建方法,包括:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;确定用于反映所述实体的知识要素间关系的关系/属性标记;获取药品说明书数据;建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;融合并保存所述三元组,得到所述药品知识图谱。如图2所示,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。或者,构建药品知识体系时,也可以不罗列药品要素,而是直接根据药品专家的经验进行药品知识的分类得到各类型的实体。所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。如图3所示,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。如图3所示,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。如图3所示,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。本发明还公开了一种药品知识图谱构建系统,包括:药品知识体系构建模块,用于:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;以及确定用于反映所述实体的知识要素间关系的关系/属性标记;药品知识获取模块,用于:获取药品说明书数据;以及药品知识建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;药品知识融合模块,用于融合所述三元组;药品知识保存模块,用于保存所述三元组以得到所述药品知识图谱。进一步地,所述确定关于药品知识的若干类别的实体,包括:罗列出药品相关的所述知识要素;通过对所述知识要素进行归类以确定所述实体。进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:确定反应属于不同或相同类型实体的两个所述知识要素间关系的关系/属性标记。进一步地,所述确定关于药品知识的若干类别的实体,包括:所述实体包括通用名实体,所述通用名实体包含若干通用名;所述获取药品说明书数据,包括:将具有相同通用名的若干所述药品说明书数据,融合为一个所述药品说明书数据。现有的药品说明书数据信息量过大,导致不能通过有限的人力完成标注等处理。具有相同通用名的不同厂商的药品,在成分上是一致的,故药品说明书严重重复。本发明中,人工标注数据的时候,以药品通用名为单位标注数据进行药品说明书数据的融合,融合后市面全部的药品通用名不到15000个,这个数量是人工标注可以实现的。进一步地,所述建立并使用匹配模板来匹配所述药品说明书数据,得到三元组,包括:所述匹配模板包括:字符槽位,用于定义对所述药品说明书数据进行匹配的字符大小和字符类型;所述词典槽位,用于定义词典,所述词典包含有实体的知识要素;辅助词,用于结合所述词典中的知识要素形成用于匹配所述药品说明书数据的关键词。进一步地,所述通过人工处理所述药品说明书数据,得到三元组,包括:人工标注所述药品说明书数据中所述实体的知识要素,并存储到预设的表格中;将所述表格进行形式转换,得到所述三元组。进一步地,所述融合并保存所述三元组,得到所述药品知识图谱,包括:在通过人工处理所述药品说明书数据的情况下,或者,在通过人工处理和匹配模板处理所述药品知识数据的情况下,进行以下至少一种融合处理:对齐处理,用于将相似的知识要素进行融合;冲突处理,用于基于客观事实构建冲突规则,根据所述冲突规则检测所述三元组的冲突错误,并通过人工处理的方式消除所述冲突错误。本发明还公开了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例所述的药品知识图谱构建方法。如图1、图2和图3所示,下面提供一种本发明的优选实施例,用于对本发明的技术方案进行详细说明:(1)药品根据经验和所学的知识罗列出与药品知识相关的全部要素(知识要素),例如:布洛芬缓释胶囊、布洛芬、缓释胶囊、头痛、关节痛、牙痛、发热、0.3g、芬必得、成分、孕妇禁用等等。(2)根据罗列的要素进行分类以确定不同类型的实体,使用其中表示概念的要素组织分类体系为以下实体:通用名、商品名、化学名、规格、批准文号、剂型、给药时间、给药方式、注意事项、疾病、症状、人群、相互作用、不良反应、药品类别、成分、溶媒、配伍、配伍禁忌。(3)上述分类体系确定后,需要为每个类别定义属性和关系,即确定实体的知识要素的之间的关系/属性标记(关系名)。定义“药品商品名”作为通用名实体与商品名实体间的关系名;定义“药品化学名”作为通用名实体与化学名实体间的关系名;定义“编号”作为通用名实体与批准文号实体间的关系名;定义“药品剂型”作为通用名实体与剂型实体间的关系名;定义“服药时间”作为通用名实体与给药时间实体间的关系名;定义“服药方法”作为通用名实体与给药方式实体间的关系名;定义“用药须知”作为通用名实体与注意事项实体间的关系名;定义“药品适应症”作为通用名实体与症状实体间的关系名;定义“药品禁用症”作为通用名实体与症状实体间的关系名;定义“药品忌用症”作为通用名实体与症状实体间的关系名;定义“药品慎用症”作为通用名实体与症状实体间的关系名;定义“药品不良反应”作为通用名实体与症状实体间的关系名;定义“药品适应疾病”作为通用名实体与疾病实体间的关系名;定义“药品禁用疾病”作为通用名实体与疾病实体间的关系名;定义“药品忌用疾病”作为通用名实体与疾病实体间的关系名;定义“药品慎用疾病”作为通用名实体与疾病实体间的关系名;定义“药品不良反应”作为通用名实体与疾病实体间的关系名;定义“药品适应人群”作为通用名实体与人群实体间的关系名;定义“药品禁用人群”作为通用名实体与人群实体间的关系名;定义“药品忌用人群”作为通用名实体与人群实体间的关系名;定义“药品慎用人群”作为通用名实体与人群实体间的关系名;定义“属类”作为通用名实体与药品类别实体间的关系名;定义“药品成分”作为通用名实体与成分实体间的关系名;定义“药品规格”作为批准文号实体与规格实体间的关系名;定义“谨慎合用”作为成分实体与成分实体间的关系名;定义“禁止合用”作为成分实体与成分实体间的关系名;定义“可以合用”作为成分实体与成分实体间的关系名;定义“合用应注意”作为成分实体与成分实体间的关系名;定义“谨慎合用”作为成分实体与类别实体间的关系名;定义“禁止合用”作为成分实体与类别实体间的关系名;定义“可以合用”作为成分实体与类别实体间的关系名;定义“合用应注意”作为成分实体与类别实体间的关系名;定义“溶媒”作为通用名实体与通用名实体间的关系名;定义“禁止配伍”作为通用名实体与通用名实体间的关系名;定义“不宜配伍”作为通用名实体与通用名实体间的关系名;定义“谨慎配伍”作为通用名实体与通用名实体间的关系名;定义“适用性别”作为通用名实体与性别实体间的关系名。(4)获取电子版说明书文本数据、说明书照片、电子版书籍等作为药品知识数据。(5)对相同通用名的说明书融合。相同通用名的药查询到多个说明书时,选择药品修订日期最近的说明书,作为该通用名药品的说明书。若药品修订日期一致,则选用说明书字符串最长的作为该药品的说明书。(6)构造匹配模版,获取药品知识的实体,构造槽位词典。(7)匹配药品说明书和书籍,匹配结果结构化成三元组。比如:抽取禁用数据时,构造模版如下:a:{w:0,5}[disease]禁用b:{w:0,5}[symptom]禁用c:{w:0,5}[people]禁用这里的{w:0,5}含义是0至5个任意字符,“w”表示槽位类型是字符类型,“0,5”表示槽位长度最小是0最大是5,[disease]、[symptom]、[people]都是槽位词典,[disease]代表所有的疾病、[symptom]代表所有症状、[people]代表所有的人群。算法会匹配出满足符合模版的句子,比如布洛芬缓释胶囊的说明书中有这么句话:“对其他非甾体类抗炎药过敏者禁用”,“对其他”符合{w:0,5},[people]词典会提前收集到“非甾体类抗炎药过敏者”,由此该句话命中上面的模版c。药品通用名可以在药品说明书的通用名字段拿到,则可以提取出知识:(布洛芬缓释胶囊,药品禁用人群,非甾体类抗炎药过敏者)该知识即为三元组的一种表达形式。这个例子中的模版比较简单,现实操作会根据说明书内容,按照规则构造出很多复杂的模版。(8)药师阅读药品说明书等药品知识信息,标注分类得到的实体中的知识要素,存储到表格里。(9)将药师标注数据转换成三元组表示。(10)对每一类实体,计算每个实体与同类别下其它所有实体的相似度。相似度算法使用余弦相似度算法计算字形的相似度,使用医疗数据训练的词向量计算语义的相似度,算出的两种相似度若有一个相似度高,就将两个实体归为一类。由此构建归一化词典,也叫同义词词典。最后的词典格式形如表2所示:0.9%氯化钠注射液0.9%氯化钠针0.9%氯化钠注射液氯化钠注射液(0.9%)0.9%氯化钠注射液生理氯化钠注射液表2表2中,第一列是归一化之后的标准表述,第二列是其它表述。(11)将机器挖掘到知识和药师标注的知识使用归一化词典进行实体对齐,解决相同实体不同表述的问题。(12)构建冲突检测规则,一个疾病不能同时是一个药物的适用症和禁慎用疾病;女性药品不应适应男性病症;药品成分不应同时含有禁忌的成分;孕妇禁用的药不应治疗孕妇病症,两个药品的全部数据不应该完全相同,提取出冲突数据。(13)字符串匹配和人工标注的知识理论上应该是完全一致的,但因字符串匹配和人工标注都会出现错误,所以需要提取出两种方法下不一致的数据。例如,对于某药品,匹配模块匹配抽取出孕妇禁用,药师标注的是哺乳期妇女禁用,这种数据应该提取出来检查。(14)将上述(12)、(13)提取的冲突数据交给药师检查,药师重新查阅说明书,修正冲突数据。(15)将修正冲突后的数据,以三元组的形式,导入redis图形数据库。以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1