本发明属于医学知识表示和知识图谱补全领域,具体的说是涉及一种融合实体描述的常见病知识图谱链接预测方法。
背景技术:
1、知识图谱是一种具有知识含义的语义图,以“实体-关系-实体”的三元组形式在数据库中构建,图中节点表示实体,节点之间的边代表实体之间得到关系。虽然知识图谱在网络安全、教育、金融等各个领域都得到了广泛应用,但在医疗领域,知识专业性强、数据嘈杂,下游任务往往具有复杂性和高知识要求,在构建和应用中面临许多挑战。
2、链接预测是一种根据知识图谱中已存在的实体去预测缺失事实的任务,是一种旨在解决知识图谱的不完整的任务,对于大数据知识下的专家领域知识库的知识发现、知识导航以及知识融合有着重要意义。在医疗领域,可应用于药物发现、临床辅助决策等多种任务。
3、在中文领域,由于医疗隐私性,中文医疗知识图谱数据少,结构稀疏,专业性强。医疗实体描述往往包含大量的专业性信息,这些专业性信息有利于增强三元组语义信息,有利于医疗知识图谱的补全。
4、实体描述被认为是包含语义信息最丰富的,作为一种重要的补充被广泛应用于知识图谱补全领域,现有的基于实体描述的训练工作,大多是通过相加、拼接操作,没有充分考虑到描述文本与结构三元组之间的语义融合问题。此外,文本描述信息包含噪声,同一实体对于不同关系的语义信息也不相同,采取平均操作,忽视了实体描述对于关系的特征。
技术实现思路
1、为了解决上述技术问题,本发明提供了一种融合实体描述的常见病知识图谱链接预测方法,该方法基于开源数据,构建中文常见病知识图谱,融合医疗实体描述信息,增强三元组实体表示的语义信息,提高链接预测的准确率。
2、为了达到上述目的,本发明是通过以下技术方案实现的:
3、本发明是一种融合实体描述的常见病知识图谱链接预测方法,具体包括如下步骤:
4、步骤1、采用网络爬虫获取网站的疾病以及疾病相关的文本数据,保存到mongodb数据库中,并处理成json文件,获取实体描述数据集和事实三元组数据集,构建图谱的图结构;
5、步骤2、将步骤1获取的所述事实三元组数据集抽象为编号形式,如<糖尿病,has_symptom,血糖高>根据对应的实体和关系编号,可抽象为<452,3,2400>,构建实体邻接矩阵和关系类型邻接矩阵,通过多关系图卷积神经网络,使实体节点聚合不同关系类型一阶邻居节点信息,充分学习图结构信息,得到基于图结构的实体嵌入es和关系嵌入rs;
6、步骤3、对步骤1获取的实体描述数据集进行预处理,将预处理后的实体描述数据集输入到bert中文预训练语言模型,进行编码,主成分分析法对编码后的实体描述数据集进行降维,获得初始词嵌入矩阵wtext;
7、步骤4、基于门机制,对于图结构向量表示和实体描述向量表示进行联合学习,引入门向量g,当两种表示相结合时,无需手动设置参数,即可自动学习向量各维度的权重,最终得到实体的最终表示;
8、步骤5、采取基于距离的打分函数,使用sgd最小化基于边界的损失函数优化参数,得到最终的实体向量和关系向量。
9、本发明的进一步改进在于:所述步骤2中,通过多关系图卷积神经网络,使实体节点聚合不同关系类型一阶邻居节点信息,充分学习图结构信息,得到基于图结构的实体嵌入es和关系嵌入rs,具体包括如下步骤:
10、步骤2-1、基于步骤1构建图谱的图结构,使实体节点聚合不同关系类型一阶邻居节点信息得到实体嵌入es
11、
12、其中,xu为实体的初始特征,tr为关系的初始特征,均采取随机初始化的方法构建,wλ(r)为特定关系的权重,包括正向关系权重wo和反向关系权重wi;
13、步骤2-2、基于实体嵌入es,采用基向量表示边向量zr,映射到边空间到节点空间的投影矩阵得到关系嵌入
14、rs=wrelzr;
15、步骤2-3、采取最小化交叉熵损失函数进行训练
16、
17、p(esh,rs,est)=σ(f(esh,rs,est))
18、f(esh,rs,est)=||esh+rs-est||2
19、其中,pi为概率函数,ti为标签向量,esh为事实三元组的头实体向量,rs为关系向量,est为尾实体向量,σ为sigmod函数,n为样本量。
20、本发明的进一步改进在于:所述步骤3中,对实体描述数据集进行预处理具体为:去除所述实体描述数据集中的空格和停用词,用[seq]划分整句,在句子开头添加[cls]标记,并且对实体描述中的噪声采用注意力机制,提取特定关系对应的文本语义表示,丰富实体语义信息,减少噪声得到最终的实体描述向量表示,具体为
21、
22、其中,et为实体描述向量,wtext为初始词嵌入矩阵,rs为三元组结构信息中的关系嵌入,d为实体描述词嵌入维度。
23、本发明的进一步改进在于:所述步骤4中,最终得到实体的最终表示为
24、e=g⊙es+(1-g)⊙et
25、使用sigmoid函数作为g的激活函数,使其元素限制在[0,1]之间,
26、
27、为实体e特有的向量,同时用es和et进行初始化和优化,头部实体、关系实体和尾部实体的表示如下:
28、h=gh⊙esh+(1-gh)⊙eth
29、r=rs
30、t=gt⊙est+(1-gt)⊙ett
31、其中,σ为sigmod函数,gh为头实体向量的门控权重,esh为事实三元组的头实体向量eth为实体描述的头实体向量,gt为尾实体的门控权重,est为事实三元组的尾实体向量ett为实体描述的尾实体向量,⊙为哈达玛积。
32、本发明的进一步改进在于:所述步骤5中,基于距离的打分函数定义为
33、
34、损失函数定义为
35、
36、其中,s为正三元组集,s′为随机替换头尾实体的负三元组集,h为正三元组头实体,r为正三元组关系向量,t为正三元组尾实体,γ为边界值,h′为负三元组头实体,r′为负三元组关系向量,t′为负三元组尾实体。
37、本发明的有益效果是:本发明基于开源数据,构建中文常见病知识图谱,针对中文医疗知识图谱数据少,结构稀疏,专业性强的问题,引入医疗实体描述信息,融合医疗实体描述信息,增强三元组实体表示的语义信息,提高医疗知识图谱链接预测的准确率。
38、本发明针对文本描述信息包含噪声,同一实体对于不同关系的语义信息也不相同的问题,引入注意力机制,提取特定关系对应的文本语义表示,丰富实体语义信息,获取实体描述向量表示。
39、本发明采取门机制对事实三元组和实体描述向量表示进行融合,解决了融合方式单一,增强了语义融合。对比多个模型的实验结果,本发明在准确率上有相应提高。
1.一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述常见病知识图谱链接预测方法具体包括如下步骤:
2.根据权利要求1所述的一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述步骤2中,通过多关系图卷积神经网络,使实体节点聚合不同关系类型一阶邻居节点信息,充分学习图结构信息,得到基于图结构的实体嵌入es和关系嵌入rs,具体包括如下步骤:
3.根据权利要求1所述的一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述步骤3中,对实体描述数据集进行预处理具体为:去除所述实体描述数据集中的空格和停用词,用[seq]划分整句,在句子开头添加[cls]标记,并且对实体描述中的噪声采用注意力机制,提取特定关系对应的文本语义表示,丰富实体语义信息,减少噪声得到最终的实体描述向量表示,具体为
4.根据权利要求1所述的一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述步骤4中,最终得到实体的最终表示为
5.根据权利要求1所述的一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述步骤5中,基于距离的打分函数定义为
6.根据权利要求1-5任一项所述的一种融合实体描述的常见病知识图谱链接预测方法,其特征在于:所述常见病知识图谱链接预测方法通过构建和训练ckrl模型实现,所述ckrl模型包括