一种脑卒中医疗知识图谱的构建方法与流程

文档序号:24068342发布日期:2021-02-26 14:00阅读:68来源:国知局
一种脑卒中医疗知识图谱的构建方法与流程

[0001]
本发明属于医疗技术领域,具体涉及了一种脑卒中医疗知识图谱的构建方法。


背景技术:

[0002]
随着城市化进程和社会老龄化加速,脑卒中已经成为致死率和致残率第一的疾病,具有高发病率、高致残率、高死亡率、高复发率、高经济负担五大特点,在我国脑卒中防治报告2019中提到,2018年我国居民因脑血管病致死的比例超过20%,致死率长期居于首位且逐年上升。而目前对于脑卒中的研究主要集中在防治上,由于脑卒中涉及到多种并发症,治疗手段也很多,有关于脑卒中的医疗实体错综复杂,运用医疗知识图谱会对此起到积极作用,
[0003]
从上个世纪九十年代的语义网络,到2012年google正式提出知识图谱(knowledge graph),再发展到现在的公开知识库以及大量的通用知识图谱涌现,证明对于知识图谱的研究及应用已经在各行业各领域引起极大的关注,知识图谱可以简单的划分成通用知识图谱和领域知识图谱两类,通用知识图谱有很多,研究领域中的大型公开的知识库,如基于维基百科词条中抽取结构化知识的dbpedia、集成了部分中文信息的连接数据库yago、社区伙伴贡献的大型合作型知识库freebase、中文的开放型知识图谱库openkg等;工程领域的谷歌公司用在google搜索引擎上的的knowledge graph、百度公司用作百度搜索的知识图谱“知心”、搜狗用在sougo搜索的“知立方”等。
[0004]
得益于互联网技术的不断发展,知识的储存和共享愈发便捷,医疗领域知识能借助互联网相互交融、交叉发展,越来越多的技术被运用到医疗领域中,为智慧医疗领域添砖加瓦,而知识图谱本质上是一种揭示实体之间的关系的语义网络,网络中的节点代表着实体,节点间的边表示实体与实体间的关系,知识图谱在医疗领域的应用前景非常广阔,将知识图谱运用到医疗领域中的智能问答、疾病辅助诊断、风险评估以及决策系统等方面都能起到关键作用,医疗知识图谱蕴含大量疾病知识与症状特征,实体和概念覆盖面更广、语义关系更多样,能够作为机器语言认知的基础。
[0005]
鉴于此,本发明以脑卒中及其相关医学知识作为契入点,对脑卒中知识图谱进行研究,提出了一种脑卒中医疗知识图谱的构建方法。


技术实现要素:

[0006]
本发明的目的是提供一种脑卒中医疗知识图谱的构建方法,构建了一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
[0007]
为解决上述技术问题,本发明提供一种脑卒中医疗知识图谱的构建方法,所述方法包括以下步骤:
[0008]
s1、基于国际标准医学术语集并通过人工参与的方式构建脑卒中疾病词典;
[0009]
s2、根据脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑
卒中本体库模式层的规则;
[0010]
s3、从信息库中获取脑卒中疾病及其相关的医学知识,并对获取的医学知识进行实体对齐和相似度计算,然后基于本体库模式层的规则将与脑卒中本体库中实体匹配的医学知识添加到脑卒中本体库中;
[0011]
s4、不断重复步骤s3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱。
[0012]
优选地,所述步骤s1的具体实现方式包括:
[0013]
s11、通过人工参与的方式调用国际标准医学术语集并初步建立概念分类体系;
[0014]
s12、同时利用人工对所调用的国际标准医学术语集进行标注分析以建立关系分类体系;
[0015]
s13、对所建立的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
[0016]
优选地,所述步骤s3的具体实现方式包括:
[0017]
s31、采用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病及其相关的医学知识,并将所爬取的医学知识以三元组<head,relation,tail>形式储存在neo4j图数据库中;
[0018]
s32、将从公开知识库中获取的通用知识图谱医学知识直接进行整合,并将所整合的医学知识以三元组<head,relation,tail>形式储存在neo4j图数据库中;
[0019]
s33、将neo4j图数据库中储存的从步骤s31和步骤s32获取的医学知识映射到连续的低维向量空间中并以实体向量表示以进行实体对齐,然后计算出实体之间的语义结构信息的相似度;
[0020]
s34、基于本体库模式层的规则将所计算的相似度高的医学知识添加到脑卒中本体库中。
[0021]
优选地,所述步骤s33的具体实现方式包括:
[0022]
s331、利用transd模型将neo4j图数据库中储存的从步骤s31和步骤s32获取的医学知识映射到连续的低维向量空间中以实体向量表示,其中transd模型表示为:
[0023][0024]
式(1)中,h表示头实体节点,t表示尾实体节点,r表示头实体节点与尾实体节点之间的关系,l1/l2表示计算时使用l1的距离或使用l2的距离,l1表示r向量到h向量的平移距离,l2表示r向量到t向量的平移距离,其中,m
h
=r
p
h
p
+i,m
t
=r
p
t
p
+i,i表示单位矩阵,p表示投影,h
p
、r
p
、t
p
分别为三元组<head,relation,tail>的投影向量;
[0025]
s332、将同类实体的相同属性的不同表达方式进行属性对齐得到异构数据源,然后根据本体库模式层的规则对异构数据源的属性值进行规范化处理;
[0026]
s333、计算属性对齐和规范化处理后实体的语义结构信息的相似度,从而确定该医学知识中实体与脑卒中本体库中实体之间的关系,其计算公式表示为:
[0027][0028]
式(2)中,w1,w2表示两个实体,k表示权重参数,n表示可调节参数,i,j表示实体的
属性名称,lcs(i,j)表示实体属性名称i和j的最大公共子序列的长度,l
i
表示实体w1中词的长度,l
j
表示实体w2中词的长度。
[0029]
优选地,所述异构数据源的属性值进行规范化处理具体包括:对数值型属性值的度量单位进行统一;对字符串类型属性值中带有的空格符和换行符进行删除;将区间型属性值的上限和下限储存于列表中;将实体对象型属性值储存于列表中且不进行属性对齐操作。
[0030]
优选地,所述脑卒中本体库中的实体包括基于医学主题词表和icd-10编码。
[0031]
优选地,所述步骤s3中的医学知识包括脑卒中疾病数据,以及治疗手段、症状、检查方法和药品。
[0032]
优选地,所述步骤s4中通过人工干预的方式对所获得的脑卒中医疗知识图谱边界进行限定以保证脑卒中医疗知识图谱不会在广度上无限延伸。
[0033]
优选地,所述步骤s4的具体实现方式包括:不断从信息库中获取脑卒中疾病及其相关的医学知识,并进行实体对齐和相似度计算,然后根据当前脑卒中本体库的模式层的关系类型对获取的医学知识进行判定,当获取的医学知识的关系类型存在当前脑卒中本体库的模式层中且其头实体节点和尾节点节点类型已知时,则将所获取的医学知识链接到脑卒中本体库已有的实体关系上,若脑卒中本体库中没有对应的实体关系,则在当前脑卒中本体库的模式层中添加新的实体关系;当获取的医学知识所连接的头实体节点和尾实体节点只有一个能在当前脑卒中本体库的模式层中找到对应的关系类型时,则将该未知关系类型的实体进行抽取并计算其出现的次数,然后对其熵值做均一化处理,并将熵值较大的关系类型与实体类型作为候选模式添加到模式层,进而不断更新脑卒中医疗知识图谱。
[0034]
优选地,还包括步骤s5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。
[0035]
与现有技术相比,本发明首先结合国际标准医学术语集并通过人工参与方式构建脑卒中疾病词典,基于脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;然后不断从垂直领域医学网站和众包网站百度百科上爬取脑卒中疾病相关医学知识以三元组形式储存,并将所爬取的脑卒中医学知识与公开知识库中抽取的脑卒中医学知识进行实体对齐和相似度计算,并基于脑卒中本体库模式层的规则将相似度高的实体关系添加到脑卒中本体库中进行脑卒中医疗知识图谱的建模、更新和完善,从而获得脑卒中医疗知识图谱,同时通过人工干预的方式对所获得的脑卒中医疗知识图谱的边界进行限定,以及对脑卒中医疗知识图谱的知识进行质量评估。本发明构建了一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
附图说明
[0036]
图1是本发明一种脑卒中医疗知识图谱的构建方法的步骤流程图,
[0037]
图2是本发明中构建脑卒中疾病词典的方法流程图,
[0038]
图3是本发明中获取和处理医学知识的方法流程图,
[0039]
图4是本发明中三元组医学知识处理方法的流程图,
[0040]
图5是本发明中疾病实体类部分属性示意图,
[0041]
图6是本发明中脑卒中疾病信息部分知识图谱的示意图,
[0042]
图7是本发明中高血脂实体结构的示意图。
具体实施方式
[0043]
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
[0044]
如图1、图5所示,一种脑卒中医疗知识图谱的构建方法,所述方法包括以下步骤:
[0045]
s1、基于国际标准医学术语集并通过人工参与的方式构建脑卒中疾病词典;
[0046]
s2、根据脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;
[0047]
s3、从信息库中获取脑卒中疾病及其相关的医学知识,对获取的医学知识进行实体对齐和相似度计算,然后基于本体库模式层的规则将与脑卒中本体库中实体匹配的医学知识添加到脑卒中本体库中;
[0048]
s4、不断重复步骤s3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱;
[0049]
s5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。
[0050]
本实施例中,首先结合国际标准医学术语集并通过人工参与方式构建脑卒中疾病词典,基于脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则,所述规则基于国际标准医学术语集的规范表述和人工标注,通过这些规则能够对歧义词、属性值等进行约束;然后不断从垂直领域医学网站和众包网站百度百科上爬取脑卒中疾病相关医学知识以三元组形式储存,并将所爬取的脑卒中医学知识与公开知识库中抽取的脑卒中医学知识进行实体对齐和相似度计算,并基于本体库模式层规则将相似度高的实体关系添加到脑卒中本体库中进行脑卒中医疗知识图谱的建模;再不断重复获取脑卒中医学知识进行实体对齐和相似度计算,并基于脑卒中本体库模式层的规则将相似度高的实体关系添加到脑卒中本体库中进行更新和完善,从而获得脑卒中医疗知识图谱;最后还可以通过人工干预的方式对所获得的脑卒中医疗知识图谱的边界进行限定,保证脑卒中医疗知识图谱不会在广度上无限延伸,同时,还通过计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。所述的脑卒中医学知识图谱具有覆盖全面、结构完整和知识描述准确的特点,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
[0051]
如图2所示,所述步骤s1的具体实现方式包括:
[0052]
s11、通过人工参与的方式调用国际标准医学术语集并初步建立概念分类体系;
[0053]
s12、同时利用人工对所调用的国际标准医学术语集进行标注分析以建立关系分类体系;
[0054]
s13、对所建立的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
[0055]
本实施例中,通过人工参与的方式调用标准医学术语集,并初步建立实体概念的分类体系;然后利用人工对实体概念进行标注和分析以建立实体关系分类体系;最后对实
体的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
[0056]
如图3所示,所述步骤s3的具体实现方式包括:
[0057]
s31、采用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病及其相关的医学知识,并将所爬取的医学知识以三元组<head,relation,tail>形式储存在neo4j图数据库中;
[0058]
s32、将从公开知识库中获取的通用知识图谱医学知识直接进行整合,并将所整合的医学知识以三元组<head,relation,tail>形式储存在neo4j图数据库中;
[0059]
s33、将neo4j图数据库中储存的从步骤s31和步骤s32获取的医学知识映射到连续的低维向量空间中并以实体向量表示以进行实体对齐,然后计算出实体之间的语义结构信息的相似度;
[0060]
s34、基于本体库模式层的规则将所计算的相似度高的医学知识添加到脑卒中本体库中。
[0061]
本实施例中,在脑卒中疾病词典的指导下,利用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病相关的医学知识并以三元组<head,relation,tail>形式储存在neo4j图数据库中(见表1,表1示出了缺血性脑卒中描述三元组,其中head表示头实体节点,tail表示尾实体节点,relation表示头实体节点与尾实体节点之间的关系),同时从公开知识库(本实施例中是以华东理工大学的中文症状库为例)抽取通用知识图谱的医学知识以三元组<head,relation,tail>形式储存在neo4j图数据库中,再将neo4j图数据库中储存的医学知识进行实体对齐和语义结构信息相似度计算,最后基于本体库模式层的规则将语义结构信息相似度高的医学知识添加到脑卒中本体库中。
[0062]
表1缺血性脑卒中描述三元组
[0063][0064]
本实施例中,由于所获取的医学知识均以轻量级的json文件进行保存,因此首先需要对所获取的医学知识进行数据清洗,即对缺省、乱码和非法字符进行清理。其中,所述医学知识包括脑卒中疾病相关医学知识,以及治疗手段、治疗方法、症状、检查方法和药物等属性和关系数据(如近义关系、属性关系以及约束关系等,如图5所示,图5示出了一种疾病实体类部分属性),其主要为患者提供脑卒中疾病自查以及给医生医学知识库作参考。
[0065]
如图4所示,所述步骤s33的具体实现方式包括:
[0066]
s331、利用transd模型将neo4j图数据库中储存的从步骤s31和步骤s32获取的医学知识映射到连续的低维向量空间中以实体向量表示,其中transd模型表示为:
[0067][0068]
式(1)中,h表示头实体节点,t表示尾实体节点,r表示头实体节点与尾实体节点之间的关系,l1/l2表示计算时使用l1的距离或使用l2的距离,l1表示r向量到h向量的平移距离,l2表示r向量到t向量的平移距离,其中,m
h
=r
p
h
p
+i,m
t
=r
p
t
p
+i,i表示单位矩阵,p表示投影,对于医学知识的三元组<head,relation,tail>而言,我们定义其三元组中h向量、r向量和t向量对应的投影向量为h
p
、r
p
和t
p

[0069]
s332、将同类实体的相同属性的不同表达方式进行属性对齐得到异构数据源,然后根据本体库模式层的规则对异构数据源的属性值进行规范化处理,本实施例中基于本体库模式层规则中的约束规则对异构数据源的属性值进行规范化处理,包括:对数值型属性值的度量单位进行统一;对字符串类型属性值中带有的空格符和换行符进行删除;将区间型属性值的上限和下限储存于列表中;将实体对象型属性值储存于列表中且不进行属性对齐操作;
[0070]
s333、计算属性对齐和规范化处理后实体的语义结构信息的相似度,从而确定该医学知识中实体与脑卒中本体库中实体之间的关系,其计算公式表示为:
[0071][0072]
式(2)中,w1,w2表示两个实体,k表示权重参数,n表示可调节参数,i,j表示实体的属性名称,lcs(i,j)表示实体属性名称i和j的最大公共子序列的长度,l
i
表示实体w1中词的长度,l
j
表示实体w2中词的长度。
[0073]
本实施例中,所述transd模型在语义关系复杂的医疗知识图谱中通过映射矩阵将头实体节点和尾实体节点映射到关系的低维向量空间中来表示语义结构,与transe模型相比较,能够更好的捕捉到结构化医疗知识数据之间的非线性关系,降低了实体节点向量化过程的损失,故能在脑卒中本体库中发挥更大的作用。实体属性对齐的作用是提高实体链接的准确率,由于脑卒中领域内的实体属性较少,因此,我们可根据脑卒中本体库的约束规则构建实体属性映射表,然后将同类实体的相同属性的不同表达方式进行对齐,再根据脑卒中本体库模式层的约束规则对异构数据源的属性值进行规范化处理,最后计算实体语义结构的相似度并根据所计算的相似度值确定该医学知识中实体与脑卒中本体库中实体之间的关系,从而决定是否将该医学知识添加(即链接)到脑卒中医疗知识图谱中进行更新和完善。
[0074]
本实施例中,实体对齐是指将异构数据源知识库中的各个实体归并为现实世界中的一个具有全局唯一标识的实体,之后将对齐的实体链接到脑卒中医疗知识图谱中,而构建脑卒中疾病词典的过程中已经实现了实体对齐,故在实体对齐阶段仅需要对实体属性进行对齐即可,见表2,表2示出了异构数据源的部分实体属性对齐映射表。其中,所述脑卒中本体库中的实体包括基于医学主题词表和icd-10编码,人工参与标注脑卒中疾病,按照不同类型进行分类,分别从病因、诊断方法、鉴别学、流行病学、并发症、既往病史、预防和复发等多个维度对脑卒中疾病进行描述。
[0075]
表2异构数据源的部分实体属性对齐映射表
[0076][0077]
其中,通过人工干预的方式对所获得的医疗知识图谱边界进行相应处理以保证医疗知识图谱不会在广度上无限延伸,其具体实现方式为:。
[0078]
其中,所述步骤s4的具体实现方式包括:不断从信息库中获取脑卒中疾病及其相关的医学知识,并进行实体对齐和相似度计算,然后根据当前脑卒中本体库的模式层的关系类型对获取的医学知识进行判定,当获取的医学知识的关系类型存在当前脑卒中本体库的模式层中且其头实体节点和尾节点节点类型已知时,则将所获取的医学知识链接到脑卒中本体库已有的实体关系上,若脑卒中本体库中没有对应的实体关系,则在当前脑卒中本体库的模式层中添加新的实体关系;当获取的医学知识所连接的头实体节点和尾实体节点只有一个能在当前脑卒中本体库的模式层中找到对应的关系类型时,则将该未知关系类型的实体进行抽取并计算其出现的次数,然后对其熵值做均一化处理,并将熵值较大的关系类型与实体类型作为候选模式添加到模式层,进而不断更新脑卒中医疗知识图谱。
[0079]
本实施例中,由于所述脑卒中疾病词典是根据实际需求进行制定,而脑卒中本体库的模式层是根据脑卒中疾病词典进行定义的,因此,在实际应用上很难保证脑卒中模式层能够涵盖所有的数据模式,考虑到我们从异构数据源中获取的数据中存在一些未被定义清晰但是具有研究价值的数据模式,我们将会从这些新的数据中归纳出新的数据模式,完善补充之前所构建的脑卒中本体库,进而获取一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
[0080]
为了更好的理解发明的工作原理和技术效果,下面用一个实验予以说明。
[0081]
实验数据包括两部分,其中一部分数据通过自己编写的爬虫程序从寻医问药网以及百度百科上爬取的与脑卒中相关的医学知识数据;另一部分数据是从openkg上获取的公开中文症状库中抽取出来有关于脑卒中的部分医学知识三元组。实验数据一共有关于脑卒中的相关实体4112个,属性类型8类(包括疾病名称、简介、易发病人群、病因、治疗手段、就诊周期、预防措施和治愈概率),实体关系类型10类,见表3(表3示出了脑卒中医疗知识图谱实体关系类型),实体类型7类,见表4(表4示出了脑卒中医疗知识图谱实体类型)。
[0082]
表3脑卒中医疗知识图谱实体关系类型表
[0083][0084]
表4脑卒中医疗知识图谱实体类型表
[0085][0086]
本实验首先是在人工参与的情况下通过半自动标注制定出脑卒中疾病词典,结合国际通用医学术语集构建出初步的脑卒中本体库和本体库模式层;然后设计爬虫程序并结合数据清洗对寻医问药网、丁香园、百度百科这三类网站的公开文本数据进行筛选爬取,再抽取华东理工大学构建的中文症状库中的医学知识作为脑卒中医疗知识图谱的补充,同时将所获取的医学知识以三元组形式存储在neo4j图数据库中;再通过对neo4j图数据库中储存的医学知识进行实体对齐和语义结构信息的相似度计算,基于本体库模式层规则将相似度高的医学知识添加到脑卒中本体库中并不断迭代更新脑卒中医疗知识图谱,使其不断完善而又保留边界,从而形成脑卒中医疗知识图谱的领域封闭。
[0087]
本次实验随机抽取了200维度的头实体h、尾实体t和关系r的三元组进行训练,选取transd模型为主要研究模型与transe模型进行对比,试验验证方法为交叉验证,将随机抽取的向量按照70%的数据作为训练集,30%的数据作为测试集,采用精确度(precision)、召回率(recall)和f1值作为评价指标,实验重复进行10并取平均值作为最后的模型评估结果,见表5(表5示出了trans系列模型参数值%)。
[0088]
表5 trans系列模型参数表%
[0089][0090]
从表5中可以看出,transd模型的表现优于transe模型,在准确率、召回率和f1值三个方面,transd模型较transe模型均有不同程度的提高,故transd模型在语义关系复杂的医疗知识图谱中,通过映射矩阵将头实体、尾实体映射到关系的低维向量空间中来表示语义结构,能够更好的捕捉到结构化医学知识之间的非线性关系,降低了实体节点向量化过程的损失,因此采用transd模型更加合理,能在脑卒中本体库发挥更大作用。
[0091]
如图6所示,由于高血压患者属于脑卒中疾病高发人群,我们在数据库中可以通过查询语句对脑卒中的诱发因素高血压的降压药信息进行查询,此时图6的数据库将返回到如图7所示的子图中,由于寻医问药网站以及丁香园网站本身属于一个医患交流平台,所以上面会有大部分患者向医学专家提出的咨询,同时将这部分数据也爬取下来,即可初步的构造一个智能问答系统。因此,本发明中所构建的脑卒中医疗知识图谱能够用于简单的问答系统上,为脑卒中人工智能的落地义工了数据支撑。
[0092]
需要说明的是,本发明中经过不断更新和完善的脑卒中本体库模式层和已有的模式层同时存在的情况下,对已经融合进脑卒中医疗知识图谱的医学知识进行类型约束和值约束,使数据层满足脑卒中本体库模式层中定义的规则,进而实现模式层检验。所述规则库和数据层是根据脑卒中疾病词典构建的本体库模式层所生成,规则库中包括实体类型检测和属性值区间检测等。
[0093]
以上对本发明所提供的一种脑卒中医疗知识图谱的构建方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1