一种多源异质数据库间概念对齐与内容互译方法及系统

文档序号:27612692发布日期:2021-11-29 12:17阅读:159来源:国知局
一种多源异质数据库间概念对齐与内容互译方法及系统

1.本发明属于大数据处理及多源数据融合技术领域,具体涉及一种多源异质数据库间概念对齐与内容互译方法及系统。


背景技术:

2.目前医疗机构众多信息系统中存在数据架构与字典未知、不完全、不可靠或相互矛盾、系统之间数据关联不清晰、系统值域标准不统一等问题。在区域医疗层面,这些问题更严重,机构间点对点的接口开发(概念对齐和内容互译)不具有大规模推广的可行性。为了实现多源异质多数据库之间的互联互通,近些年来,许多学者提出采用本体(元数据)作为中介进行数据集成,以通过数据源与标准本体之间的映射来解决语义问题,卫生健康领域的集成平台主要通过事先建立医学本体库来获取业务系统中的数据含义,辅助数据理解。国家也针对不同医疗场景制定了许多数据元和数据集标准。然而,构建统一的全局本体库往往很难预先设计好,当各个局部的数据源有动态的增加、删减或修改时,这种统一本体库的手段灵活性差,难以在较短时间内满足用户要求。另一个难点在于,目前业务系统关系数据库模式与本体之间的映射缺乏自动化工具,人力成本巨大。每家医院信息系统的数据结构、疾病、检验、症状、用药、手术操作的名称差异较大且命名不规范。如果希望做统一本体管理和映射,不仅涉及医疗信息系统设计问题,也涉及医学语言的表达能力与使用习惯以及专科之间的差异问题,目前还没有哪个区域平台能比较好地解决这个问题。由于映射过程过于复杂,缺乏性能优越的算法,数据库模式(schema)与本体之间映射大部分仍以人工的方式为主。整个集成工作严重依赖于分析人员开展大量的数据梳理工作,数据分析人员通过工具分析表结构、抽取概要数据、与业务专家交谈等方式,完成对数据库数据的情况分析,系统实施周期较长,映射成本高。
3.为了能够更直观地构建数据库与本体之间的映射,许多项目开发了图形化的映射工具,可以让用户以交互方式构建数据库与本体之间的映射,典型的项目有cog、dartgrid、visavis等。但这种半自动工具对于降低人力成本作用有限。
4.总的来说,当前的方法分为两大类:人工映射和自动映射。人工映射扩展性差,工作量指数级增长;自动映射受噪音影响严重,需大量人工标注,未获工业界采纳。


技术实现要素:

5.为了解决现有技术中存在的问题,本发明提供一种多源异质数据库间概念对齐与内容互译方法及系统,在不破坏现有业务系统存储结构、管理模式与语言使用习惯的前提下,实现多系统间的语义互通与互操作。
6.为了实现上述目的,本发明采用的技术方案是:一种多源异质数据库间概念对齐与内容互译方法,具体如下:
7.获取待处理数据库的基本信息,依据所述基本信息判断待处理数据库的缺陷类型;
8.对于数据字典未知的数据库:利用函数依存性和概率统计模型得到多源异质数据库中数据异构以及数据字典未知的数据字段间的函数映射关系,基于不确定性函数映射关系挖掘实现数据库间概念对齐与内容互译;
9.对于数据字典不完全、不可靠或相互矛盾的异构数据库:依据各数据库自身携带的数据本体模型,首先将多源异质医疗数据库中涉及的概念及其关系表示为若干图结构,进而将数据库间概念对齐和内容互译的问题转换为图同构的判定问题,采用无监督的图表征学习方法得到图的结构信息与属性信息,再基于深度学习的弱监督图分类方法,根据所述图的结构信息与属性信息,给予等价的概念图相同的标签,进而实现多源异质数据库进行概念对齐和内容互译;
10.对于字典与数据同时存在且各有缺陷的数据库,首先构建联合学习框架,引入互注意力机制,在本体逻辑规则的指引下,发掘医学文本中潜在的医学知识,同时,将医学文本中潜在的医学知识反馈给基于本体构建的知识图谱中,使得单词与实体、文本关系模式与图谱关系模式的特征充分融合,实现单词与实体、文本关系模式与图谱关系模式的全面对齐;
11.用互注意力机制、知识增强方法和深度神经网络对实体进行学习和标注,对实体进行细粒度分类,将细粒度的医疗概念组成本体视图,将细粒度概念实例化后组成实例视图,最后使用跨视图关联模型和内部视图模型对知识图谱进行跨视图学习和内部视图学习,进而实现概念对齐与内容互译。
12.对于数据字典未知的数据库,对于结构化的数据,直接基于不确定性函数映射关系挖掘实现数据库间的概念对齐与内容互译;对于非结构化数据,先将其转换为结构化医疗数据,再利用自然语言处理方法实现数据库间概念对齐与内容互译,具体如下:
13.从待分析的数据库中抽取所需数据,并采用数据清洗和归一化对数据进行预处理;
14.首先根据概念的数值分布规律,对多源数据库中的概念做初步对齐,将不同概念表示为不同的参数分布,通过参数分布间的统计规律,例如平均数、中位数、协方差等,计算数据概念间的相似度,对数据概念做初步的对齐;
15.其次,利用数据概念间的潜在关系对初步对齐的数据概念做进一步的对齐,当概念、关系和属性值均对齐后,即可实现多源异质数据间的概念对齐和内容互译。
16.将非结构化数据转换为结构话数据时,基于对抗学习的多源异质数据库间关系抽取模型,挖掘不同数据库之间潜在的互补性和一致性,从未经标注的医疗数据自由文本中抽取实体间的关系,得到结构化的医疗数据,进而将实体与关系转换为知识,为语义理解和智能推断提供基础数据,具体如下:
17.首先,依托现有的医学知识图谱,通过由改进的聚类算法以及双向循环神经网络组成的集成学习模块对中文医学文本进行分词,从分词之后的中文医学文本中抽取复杂描述方式的医学实体,并通过深度学习排序,将抽取的医学实体的描述对应到标准实体上,完成医学文本中的实体抽取和共指消歧;
18.其次,基于对抗学习的多源异质数据库关系抽取模型,使用对抗学习方法在多源异质数据库环境下学习单一数据库的独特性质,同时在全局融合多源异质数据库的共有特性,为多源异质数据库关系抽取模型利用多种数据库语料获取更准确的知识。
19.基于对抗学习的多源异质数据库关系抽取模型具体包括句子编码器模块、多源异质数据库注意力机制模块和对抗学习模块;
20.在句子编码器模块中,对于一个含有若干单词的句子,首先经过输入层将所述句子中的所有单词转化为对应的输入词向量;所述输入词向量由文本词向量和位置向量拼接而成,所述文本词向量用于刻画每个词的语法和语义信息,位置向量用于刻画实体的位置信息;在输入层的基础上,使用句子编码器,得到句子的向量表示,对每种数据库分别使用独立编码和跨数据库编码两种编码方式;
21.在多源异质数据库注意力机制模块中,通过注意力机制衡量每个实体的信息丰富程度,设立各数据库独立的注意力机制模块和数据库间一致的注意力机制模块,独立的注意力机制模块采用句子级别选择性注意力机制,减弱信息不丰富的实体对整体抽取的影响,数据库间一致的注意力机制模块用于刻画多个数据库中实体的共性;
22.在对抗学习模块中,对抗学习模块包括编码器和判别器,将来自不同数据库的实体编码到一个统一的语义空间中。
23.基于关系图卷积网络的无监督图表示学习时,先对属性信息进行仿射变换,学习属性特征之间的关联关系;再聚合每一个节点的邻居节点的特征向量,更新当前节点的特征向量。
24.采用基于无监督的图表征学习方法实现图同构判定时,结合无监督损失函数实现无监督图表示学习,所述损失函数包括基于重构损失的r

gcn和基于对比损失的r

gcn;基于重构损失的r

gcn借鉴自编码的思路,对节点之间的邻接关系进行重构学习;基于对比损失的r

gcn,设置一个评分函数,用于提高正样本的得分,降低负样本的得分,对比损失基于图数据的节点和与节点有对应关系的对象进行构造。
25.基于概念图同构的概念对齐与内容互译方法具体如下:
26.基于本体,通过构建多源异质数据库的概念图,将数据库间概念对齐和内容互译问题转换为图同构判定问题;图同构即给定两个图,判断这两个图是否完全等价;采用基于深度学习的弱监督图分类算法,给予等价的概念图相同的标签,具体如下:
27.首先使用weisfeiler lehman方法,对少部分概念图进行同构判定,然后将判定的结果作为训练数据,训练一个弱监督的图神经网络分类模型,用于对概念图进行分类;
28.基于weisfeiler lehman迭代式算法,先聚合节点及其邻居的标签;再将聚合后节点及其邻居的标签散列为唯一的新标签,如果在某些迭代中两个图之间的节点标签不同,则将两个图认为是非同构的;
29.从多源数据库中获取概念图,通过weisfeiler lehman算法对其中的部分概念图进行同构判定,得到其分类标签;使用未标记的概念图和有分类标签的概念图,训练一个弱监督的图神经网络分类模型,基于所述图神经网络分类模型对概念图进行同构分类对齐。
30.一种多源异质数据库间概念对齐与内容互译系统,包括数据库缺陷判定模块、基于数据驱动的概念对齐和互译模块、基于本体驱动的概念对齐和互译模块以及基于数据和本体双驱动的概念对齐和互译模块;
31.数据库缺陷判定模块用于获取待处理数据库的基本信息,依据所述基本信息判断待处理数据库的缺陷类型;
32.基于数据驱动的概念对齐和互译模块用于对于数据字典未知的数据库:利用函数
依存性和概率统计模型得到多源异质数据库中数据异构以及数据字典未知的数据字段间的函数映射关系,基于不确定性函数映射关系挖掘实现数据库间概念对齐与内容互译;
33.基于本体驱动的概念对齐和互译模块用于对于数据字典不完全、不可靠或相互矛盾的异构数据库:依据各数据库自身携带的数据本体模型,首先将多源异质医疗数据库中涉及的概念及其关系表示为若干图结构,进而将数据库间概念对齐和内容互译的问题转换为图同构的判定问题,采用无监督的图表征学习方法得到图的结构信息与属性信息,再基于深度学习的弱监督图分类方法,根据所述图的结构信息与属性信息,给予等价的概念图相同的标签,进而实现多源异质数据库进行概念对齐和内容互译;
34.基于数据和本体双驱动的概念对齐和互译模块用于对于字典与数据同时存在且各有缺陷的数据库,首先构建联合学习框架,引入互注意力机制,在本体逻辑规则的指引下,发掘医学文本中潜在的医学知识,同时,将医学文本中潜在的医学知识反馈给基于本体构建的知识图谱中,使得单词与实体、文本关系模式与图谱关系模式的特征充分融合,实现单词与实体、文本关系模式与图谱关系模式的全面对齐;用互注意力机制、知识增强方法和深度神经网络对实体进行学习和标注,对实体进行细粒度分类,将细粒度的医疗概念组成本体视图,将细粒度概念实例化后组成实例视图,最后使用跨视图关联模型和内部视图模型对知识图谱进行跨视图学习和内部视图学习,进而实现概念对齐与内容互译。
35.一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述源异质数据库间概念对齐与内容互译方法。
36.一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的源异质数据库间概念对齐与内容互译方法。
37.与现有技术相比,本发明至少具有以下有益效果:
38.采用数据驱动的对齐和互译方法无需专家标注,只依赖数据内在分布特性;基于本体驱动对齐和互译方法,准确高效,无需依赖大量的训练数据,基于数据与本体双驱动的多源异质数据库间概念对齐与内容互译技术,结合两者的优势互相补充互相促进,使整个系统达到更高的智能水平,解决各业务系统间数据异构、数据字典未知、不完全、不可靠或相互矛盾以及在数据库内各院系与院系的语言使用缺乏统一指南规范情况下,在不破坏现有业务系统存储结构、管理模式与语言使用习惯的前提下,实现多系统间的语义互通与互操作,可以实现以下三种场景下的多源异构数据库间准确、高效、鲁棒的自动概念对齐与内容互译:1、在字典未知情况下,通过对海量异构多模态医疗数据自身的挖掘,实现对齐互译;2、在字典不完全、不可靠或相互矛盾的异构数据库间,通过对多本体定义与模型间映射关系的推理,实现彼此间的对齐互译;3、在字典与数据同时存在且各有缺陷的情况下,通过协同挖掘多系统内数据与本体间的映射关系,实现精准、高效、鲁棒、低数据依赖性的对齐互译。
附图说明
39.图1为本发明多源异质数据库拟解决的关键技术框架示意图。
40.图2为本发明一种面向概念对齐与内容互译的数据驱动、本体驱动以及双驱动系统的关键步骤示意图。
41.图3为一种基于互注意机制和协同训练框架构建的面向概念对齐与内容互译的领域内知识图谱。
具体实施方式
42.下面结合附图对本发明进行详细阐述。
43.本发明所述数据是指:多个医疗机构间的多源异构数据;本体是指:本体是一个概念模型的明确规范说明,它可以表示共同认可的、可共享的知识。基于数据驱动的多源异质数据库间概念对齐与内容互译
44.获取待处理数据库的基本信息,依据所述基本信息判断待处理数据库的缺陷类型;所述缺陷类型包括数据字典未知、数据库中数据字典不完全、不可靠或相互矛盾还包括数据库的字典与数据同时存在且各有缺陷。
45.参考图1,在多源异质医疗数据库中存在着结构化和非结构化的数据;作为示例,对于结构化的数据,本发明基于不确定性函数映射关系挖掘实现数据库间的概念对齐与内容互译;对于非结构化数据,本发明先将其转换为结构化医疗数据,再自然语言处理方法实现数据库间概念对齐与内容互译。
46.对于结构化数据驱动的多源异质数据库:多源异质医疗数据库中存在一些结构化数据,比如患者的姓名、年龄、性别、身高、体重、化验结果等。虽然结构化数据均对应相应数据字典中的相应字段,但由于在不同医院数据异构以及数据字典未知、不完全、不可靠或相互矛盾,导致这些数据概念难以对齐,内容不能互译,例如,对于血压,有的医院记录收缩压、舒张压,有的医院记录中心动脉压,另外不同医院的icd编码也可能不同。为了解决上述问题,本发明基于不确定性函数映射关系挖掘的数据库间概念对齐与内容互译。
47.如果两个概念的数值分布相似,且具有多个相同的属性,那么两个概念可能是等价的。利用函数依存性和概率统计模型将数据挖掘技术应用到医疗领域中,以发现多源异质数据库中数据异构以及数据字典未知、不完全、不可靠或相互矛盾的数据字段间的函数映射关系。具体方案如下:
48.从待分析的数据库中抽取所需数据,并采用数据清洗和归一化对数据进行预处理;
49.首先根据概念的数值分布规律,对多源数据库中的概念做初步对齐,将不同概念表示为不同的参数分布,通过参数分布间的统计规律,例如平均数、中位数、协方差等,计算数据概念间的相似度,对数据概念做初步的对齐。
50.其次,利用数据概念间的潜在关系对初步对齐的数据概念做进一步的对齐。具体的讲,对于一个本体o,如果<x,r,y>∈o,则记为r(x,y),其中x为概念,y为概念或属性值,r为x和y之间的映射关系,若r为x和y之间的映射关系,若则称r
‑1为r的逆映射,当概念之间的指代相同或属性值对应的指代相同时,称概念或属性值是等价的,用符号“≡”表示。虽然函数映射关系可以作为概念对齐的一个判断依据,但函数却不是对齐的充分必要条件,当本体中存在较多错误的时候,单纯使用函数关系判断是否对齐,容错率很低,另外即使本体中的一些概念不存在函数关系,也仍有可能是等价的、可对齐的,例如关系r是一对多的情况。因此本发明提出可以对关系r的函数性进行度量的函数τ(),用来衡量一个关系作为函数的严格程度。函数性是根据函数的定义而言的,函数必须是多对一或者一对一关
系,如果r是函数,那么τ()为1,如果r是一对多或者多对多关系,那么τ()小于1,τ()的取值范围是0

1,其逆映射τ
‑1(r)=τ(r
‑1)。推理可知,若两个y等价的概率越高,且关系r的函数性越高,则两个x等价的概率越高。两个概念对齐的逻辑规则可表述为:
[0051][0052]
转化为概率表达为:
[0053]
pr1(x≡x

)=1

π
r(x,y),r(x

,y

)
(1

τ
‑1(r)
×
pr(y≡y

))
ꢀꢀꢀꢀꢀꢀ
(2)
[0054]
以上描述是对x(概念)进行对齐的方法,同理可以使用同样的方法对关系或属性值进行对齐。当概念、关系和属性值均对齐后,即可实现多源异质数据间的概念对齐和内容互译。
[0055]
非结构化数据驱动的多源异质数据库间概念对齐与内容互译:
[0056]
在电子病历中,医生输入的患者症状表现、既往病史、治疗记录等非结构化文本,很难以单独的字段存储在数据库中,无法做到统一“标准化”,然而这类非结构化数据恰恰是电子病历有价值的部分。为了能够有效利用这类医疗数据,本发明提出非结构化医疗数据转换为结构化医疗数据的自然语言处理方法,有了结构化的医疗数据后,即可按照对结构化数据驱动的多源异质数据库进行多源异质数据库间概念对齐与内容互译的方法实现多源异质数据库间概念对齐与内容互译。
[0057]
由于现有的分词和实体(具象的实例和抽象的概念)提取方法已较为成熟,基于远程监督的关系抽取系统,让利用大规模数据训练出可用的关系抽取模型成为可能,但其也存在一些亟待解决的问题:通过远程监督获取的训练数据存在大量噪声;远程监督难以获取长尾实体及其关系。本发明基于对抗学习的多源异质数据库间关系抽取模型,挖掘不同数据库之间潜在的互补性和一致性,从未经标注的医疗数据自由文本中抽取实体间的关系,得到结构化的医疗数据,进而将实体与关系转换为知识,为语义理解和智能推断提供基础数据。
[0058]
具体如下:首先依托现有的医学知识图谱,通过由改进的聚类算法以及双向循环神经网络组成的集成学习模块对中文医学文本进行分词,当然也可以采用自注意神经网络、对抗生成网络对中文医学文本进行分词,从分词之后的中文医学文本中抽取复杂描述方式的医学实体,并通过深度学习排序算法,将抽取的医学实体的描述对应到标准实体上,完成医学文本中的实体抽取和共指消歧工作。
[0059]
参考图2,基于对抗学习的多源异质数据库关系抽取模型具体如下:
[0060]
给定实体对(h,t),在m种不同数据库中包含该实体对的句子定义为其中对应第j种数据库中的n
j
个实例集合,多源异质数据库关系抽取模型将利用s
(h,t)
中多源数据库场景下的实例来预测实体对(h,t)与每个关系r∈r形成有效知识的概率。多源异质数据库关系抽取模型包括句子编码器模块、多源异质数据库注意力机制模块和对抗学习模块。
[0061]
在句子编码器模块中,对于一个含有若干单词的句子,首先经过输入层将所述句子中的所有单词转化为对应的输入词向量;所述输入词向量由文本词向量和位置向量拼接而成,所述文本词向量用于刻画每个词的语法和语义信息,位置向量用于刻画实体的位置
信息。在输入层的基础上,使用句子编码器,例如双向循环神经网络,得到句子的向量表示。多源异质数据库关系抽取模型对每种数据库分别使用独立编码和跨数据库编码两种编码方式。
[0062]
在多源异质数据库注意力机制模块中,通过注意力机制衡量每个实体的信息丰富程度,由于句子编码器分开编码了各数据库独立的信息和数据库间一致的信息,因此设立各数据库独立的注意力机制模块和数据库间一致的注意力机制模块。独立的注意力机制模块采用句子级别选择性注意力机制,减弱那些信息不丰富的实体对整体抽取的影响,数据库间一致的注意力机制模块用于刻画多个数据库中实体的共性。
[0063]
在对抗学习模块中,对抗学习模块包括编码器和判别器,将来自不同数据库的实体编码到一个统一的语义空间中,采用对抗学习策略以保证来自不同数据库的实体在语义空间中的嵌入得到充分的混合。对抗学习模块中的判别器用以判定特征向量的数据库归属,对抗学习模块中的编码器用以生成令判别器难以区分归属的特征向量,进行训练后,编码器与判别器达到平衡时,不同数据库包含相似语义信息的实体将被编码到空间中相近的位置,特征得到充分融合,使得模型可以利用多种数据库语料获取更准确的知识,为多源异质数据库间的概念对齐和内容互译提供基础。
[0064]
基于本体驱动的多源异质数据库间概念对齐与内容互译
[0065]
依据各数据库自身携带的数据本体模型,首先将多源异质医疗数据库中涉及的概念及其关系表示为若干图结构,进而将数据库间概念对齐和内容互译的问题转换为图同构的判定问题。在图同构的判定问题求解的视角下,本发明采用基于无监督的图表征学习方法实现图同构判定。
[0066]
概念组成了本体,本体定义了概念间的可计算逻辑规则;根据本体的指导,本发明将数据库中的概念构建为图表示,概念或其属性值作为图的节点,概念间的关系或属性作为图的边。通过构建多源异质数据库的概念图,可以将数据库间概念对齐与内容互译问题转换为图同构判定问题。
[0067]
本发明所述采用无监督的图表征学习方法和概念图同构判定算法具体如下。
[0068]
无监督的图表征学习方法:图数据的表征如果能够包含丰富的语义信息,那么下游的相关任务,如节点分类、边预测、图分类等,就能得到良好的输入特征。传统的图表征学习方法有矩阵分解法和随机游走法。矩阵分解法通过对描述图数据结构信息的矩阵进行分解,将节点转化到低维向量空间中,同时保留结构上的相似性,一般来说,这类方法均有解析解,但这类方法具有很高的时间和空间复杂度;随机游走法将在图中随机游走产生的序列看作句子,将节点看作词,以此类比词向量方法从而学习得到节点的表征,该方法的缺点是,将图转化为序列集合后,图本身的结构信息没有被充分利用。因此本发明采用基于关系图卷积网络(r

gcn)的无监督图表示学习方法。
[0069]
图卷积网络(gcn)对于属性信息和结构信息的学习可分为两步:第一步,对属性信息进行仿射变换,学习属性特征之间的关联关系;第二步,聚合图结构中任一节点的邻居节点的特征,更新当前节点的特征。由于所构造的医疗数据概念图具有复杂的关系,而gcn没有显式的考虑节点之间关系的不同,因此本发明考虑使用r

gcn及其变种对医疗数据概念图进行建模。r

gcn在处理节点邻居的时候,对于每一种关系,同时考虑关系的正反方向,其首先对同种关系的节点邻居进行单独聚合,同时对于自身加入自连接关系,将所有同种关
系的节点邻居聚合之后,再进行一次总的聚合。r

gcn基于gcn聚合邻居的操作,增加了一个聚合关系的维度,使得节点的聚合操作变成一个双重聚合的过程,其核心公式如下:
[0070][0071]
其中,表示节点i在第l+1层的状态,l表示关系图神经网络的第l层,r表示图里所有的关系集合,表示与节点v
i
具有r关系的邻居集合,c
i,r
用来做归一化,w
r
是关系图神经网络第l层具有r关系的邻居对应的权重参数,w
o
是节点自身对应的权重参数,v
j
表示节点j;节点i第l层的状态,节点j在第l层的状态,表示和节点v
i
之间具有r关系的邻居节点的集合。
[0072]
r

gcn作为一种重要的对图数据进行表征学习的神经网络结构,与相应的无监督损失函数结合起来就能实现无监督图表示学习,无监督学习的主体在于损失函数的设计,本发明主要构造两类损失函数:基于重构损失的r

gcn和基于对比损失的r

gcn。基于重构损失的r

gcn借鉴自编码的思路,对节点之间的邻接关系进行重构学习,基于重构损失的r

gcn包括编码器模块、解码器模块和损失函数模块;基于对比损失的r

gcn,设置一个评分函数,用于提高正样本的得分,降低负样本的得分,对比损失基于图数据的节点和与节点有对应关系的对象进行构造。与节点有对应关系的对象,可以是节点的邻居、节点所处的子图、以及全图。本发明希望评分函数提高节点与其对应对象的得分,降低节点与其无关对象的得分。
[0073]
无监督的r

gcn模型同时学习图的结构信息与属性信息,这两种信息在学习过程中有效的互补,得到一个准确的、鲁棒的图表征学习结果,为下游节点分类、边预测、图分类等任务提供帮助。
[0074]
基于概念图同构的概念对齐与内容互译方法:
[0075]
基于本体,通过构建多源异质数据库的概念图,可以将数据库间概念对齐和内容互译问题转换为图同构判定问题。图同构即给定两个图,判断这两个图是否完全等价。作为示例可以采用weisfeiler lehman算法进行图同构判定,其效率相对较低,本发明优选采用基于深度学习的弱监督图分类算法,给予等价的概念图相同的标签。具体如下:
[0076]
首先使用weisfeiler lehman算法,对少部分概念图进行同构判定,然后将判定的结果作为训练数据,训练一个弱监督的图神经网络分类模型,用于对概念图进行分类。
[0077]
weisfeiler lehman是一个迭代式算法,其解决图同构问题时,包括以下步骤:(1)聚合节点及其邻居的标签;(2)将聚合后节点及其邻居的标签散列为唯一的新标签。如果在某些迭代中两个图之间的节点标签不同,则将两个图认为是非同构的。
[0078]
从多源数据库中获取大量概念图,通过weisfeiler lehman算法对其中的少部分概念图进行同构判定,得到其分类标签。使用大量未标记的概念图和少部分有分类标签的概念图,训练一个弱监督的图神经网络分类模型。
[0079]
图分类不仅需要关注各个节点的属性信息,还需要关注图的结构信息,需要对图的全局信息进行融合学习,因此图分类模型不仅要对节点进行表征学习,还需要在多轮迭代后,能够对学习到的节点信息进行池化整合。本发明基于全局池化的弱监督图分类算法
和基于层次化池化的弱监督图分类算法。在层次化池化中,本发明基于图坍缩的池化机制和基于边收缩的池化机制。在图坍缩池化机制中,将图划分成不同的子图,将子图视为超级节点,从而形成一个坍缩的图,实现对图全局信息的层次化学习;在基于边收缩的池化机制中,并行地将图中的边移除,并将被移除的两个节点合并,同时保持被移除节点的连接关系,通过递归并操作逐步学习图的全局信息。
[0080]
训练得到的图分类模型,可以高效的对概念图是否同构做出预测。当两个概念图同构时,其中的所有节点和边均是对齐的,可依据此对多源异质数据库进行概念对齐和内容互译。
[0081]
参考图3,数据与本体双驱动的多源异质数据库间概念对齐与内容互译技术:
[0082]
单纯数据驱动的多源异质数据库概念对齐与内容互译算法严重依赖于对数据库中大量原始数据资源的访问,计算开销巨大,具有较强的数据依赖性,不适用于有限数据访问授权的情况,且易受噪声影响;另一方面,单纯基于本体驱动的方法,虽然运算效率大幅提升,但是在本体未知、不可靠或相互矛盾的情况下,易产生歧义结果,不能利用原始数据中蕴涵的丰富语义信息。本发明采用数据与本体双驱动的多源异质数据库间概念对齐与内容互译方法,首先,提出用于医学知识获取的数据与本体双驱动的互注意力算法,在此基础上构建面向特定医疗场景的跨视图领域知识图谱,借助跨视图领域知识图谱实现多源异质数据库的概念对齐和内容互译。
[0083]
数据驱动的人工智能算法具有自动学习能力,且系统的建立和维护相对容易,可以较好的模拟人类的联想、直觉、类比、归纳、学习和记忆等思维过程,但其缺乏反演绎能力,系统性和可解释性不足。基于本体驱动的逻辑计算技术,具有极强的演绎推理能力,但需要人为给出大量的常识和领域知识作为规则确立的先决条件,这些知识的获取往往非常昂贵并且其中包含的不正确信息可能会影响推理的正确性。因此,本发明采用数据与本体双驱动的多源异质数据库间概念对齐与内容互译方法,结合数据驱动和本体驱动的优势互相补充互相促进,使整个系统达到更高的智能水平。本发明提出用于医学知识获取的数据与本体双驱动互注意力算法机制,同时提出面向概念对齐与内容互译的跨视图领域知识图谱的构建与应用方法。
[0084]
面向医学知识获取的数据与本体双驱动互注意力算法机制
[0085]
通常有两种主要的方法用来扩展现有医学知识图谱中的相关知识,一种是训练关系抽取模型,用于从医学文本中抽取医学知识,是一种数据驱动的方法;另一种是使用知识表示模型在基于本体构建的知识图谱内部进行知识填充,是一种本体驱动的方法。然而,目前的工作较少考虑将上述两种途径结合起来进行统一的知识提取,因此本发明提出一种适用于医学知识获取的数据和本体双驱动算法模型,引入联合学习策略和互注意力机制。具体如下:
[0086]
首先构建联合学习框架,引入互注意力机制,在本体逻辑规则的指引下,数据挖掘技术能够更容易的发现医学文本中潜在的医学知识,与此同时,数据挖掘的结果也可以反馈给基于本体构建的知识图谱中,加强那些对训练影响较大的知识内容,所述联合学习框架在单词与实体、文本关系模式与图谱关系模式上进行全面的对齐,使得单词与实体、文本关系模式与图谱关系模式的特征能够充分融合。
[0087]
将医学知识图谱g定义为一个由实体集、关系集合、事实三元组集合共同组成的大
集合,将医学文本语料定义为d。联合学习框架支持各个模型在统一的连续空间中同时训练,从而同步获得实体、关系以及单词的嵌入表征,在训练过程中,通过统一空间带来的联合约束和特征信息可以方便地在知识图谱和文本模型之间进行共享和传递。具体地讲,将所有的嵌入表征及模型中涉及的参数均定义为模型参数,用符号θ={θ
e

r

v
}来表示,其中θ
e

r

v
分别表示实体、关系、单词的嵌入向量,联合训练框架用于找到最佳的嵌入表征以最大程度地拟合给定的知识图谱结构和实体、关系、单词的语义信息,即找到一个最优的参数以满足:
[0088][0089]
其中,p(g,d|θ)为一个条件概率函数,用于度量在给定实体、关系与单词嵌入模型参数θ的情况下,嵌入对图谱与文本的表达能力。条件概率p(g|θ
e

r
)用于从知识图谱g中学习结构特征,得到实体和关系的嵌入表征。条件概率p(d|θ
v
)用于从医学文本中学习文本特征,得到单词与语义关系的嵌入表征。使用知识表示模型,例如transd、transr或ptranse,对医学知识图谱中的三元组集合中的三元组进行编码和嵌入,优化条件概率函数p(g|θ
e

r
),使用神经网络cnn、rnn等对文本关系进行表征学习,优化条件概率p(d|θ
v
)。
[0090]
面向医学知识获取的数据与本体双驱动互注意力算法模型在联合学习框架的基础上,引入互注意力机制。互注意力模型包括了基于图谱知识的注意力机制模块和基于文本语义的注意力机制模块,训练过程中,两个模块互相促进。在基于知识的注意力机制模块中,对于每个三元组来说,医学文本中可能存在多个能够暗示实体间关系的句子,由于某些句子中可能包含一些模糊和错误的成分,因此本发明使用实体间的潜在关系向量作为基于知识的注意力来突出训练数据中的重要句子,减少噪声成分。在基于语义的注意力机制模块中,对于每个关系来说,医学知识图谱中可能存在多个蕴含该关系的实体对,为了使知识图谱表示模型更为有效,本发明使用从医学文本模型中提取的语义信息作为反馈,来帮助实际关系向量尽量接近那些最合理实体对的潜在向量。
[0091]
该算法是一个由医学文本数据和基于本体构建的医学知识图谱双驱动的算法模型,其中引入联合学习框架和互注意力机制,能够有效的获取医学知识,能够对单词与实体、文本关系与图谱关系进行全面的对齐,实现多源异质数据库间的概念对齐和内容互译。
[0092]
构建面向概念对齐与内容互译的跨视图领域知识图谱并应用
[0093]
多源异质医疗数据库中的概念组成了本体视图,本体概念实例化后组成了实例视图,现有的知识图谱表示方法仅侧重于其中一个视角下的知识表示,未能充分利用已有信息。同时对本体视图和实例视图的知识进行建模,既能保留实例表示中的丰富信息,也能够得到本体视图自身与实例间的层次结构,有利于实例和概念的对齐,因此,本发明构建跨视图的知识图谱以实现概念对齐和内容互译。具体方案如下:
[0094]
首先用知识增强技术和深度神经网络对实体进行标注,其次对实体进行细粒度分类,将细粒度的医疗概念组成本体视图,将细粒度概念实例化后组成实例视图,最后使用跨视图关联模型和内部视图模型对知识图谱进行多方面的表示学习,实现本体和实例信息的融合。
[0095]
1)将中文医学领域广泛存在的本体库和基于弱监督的循环神经网络得到的知识
互相作为补充知识源,得到更准确的医学数据命名实体,具体地讲,基于医学本体提取语义概念特征并与字词向量特征进行融合来构建命名实体识别模型,采用transformer框架提取语义特征和字符特征,将语义特征和字符特征结合并通过带有注意力机制的深度学习模型来获得中文医疗文本中的实体标注。
[0096]
2)构建一套医学知识网络提供知识,用于增强文本的理解,将输入的文本通过知识网络转化成图结构,图中的节点为实体、属性、动词形容词等,有了这些节点之后,根据上下文内容在图上进行随机游走,待随机游走收敛后,得到每个实体在当前上下文中最合适的上位概念,得到实体的细粒度分类,然后将细粒度的医疗概念组成本体视图,将细粒度概念实例化后组成实例视图。
[0097]
3)使用协同训练(co

training)框架,将特征向量分为本体视角和实例视角,在两个视角下分别训练基于两个图谱联合表示学习的实体对齐模型,并不断选出最可信的实体对齐结果用于辅助另一视角下模型的训练,实现本体和实例信息的融合,实体对齐的准确率提升12%。当完成多个数据库间的实体对齐后,即可实现多源异质数据库的概念对齐和内容互译。
[0098]
本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述源异质数据库间概念对齐与内容互译方法。
[0099]
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的源异质数据库间概念对齐与内容互译方法。
[0100]
所述计算机设备可以采用车载计算机、笔记本电脑、桌面型计算机或工作站。
[0101]
处理器可以是中央处理器(cpu)、数字信号处理器(dsp)、专用集成电路(asic)或现成可编程门阵列(fpga)。
[0102]
对于本发明所述存储器,可以是笔记本电脑、桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
[0103]
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1