一种城市体检指标知识图谱构建方法及系统与流程

文档序号:28374054发布日期:2022-01-07 21:09阅读:来源:国知局

技术特征:
1.一种城市体检指标知识图谱构建方法,其特征在于,包括:s1:获取城市体检指标数据,抽取所述城市体检指标数据中的知识三元组,对所述知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;s2:对所述指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;步骤s2具体为:s21:计算获取所述指标实体集合的第一分类向量和第二分类向量;s22:通过所述第一分类向量、所述第二分类向量和所述指标属于指标类目关系集合,计算获得所述指标类目实体集合的所有第一向量和所有第二向量;s23:通过所有所述第一向量和所有所述第二向量,对所述指标类目实体集合进行第二次融合,获得所述融合后的指标类目实体集合;s3:建立所述指标实体集合中,各指标实体之间的关联关系;s4:通过所述指标实体集合、所述融合后的指标类目实体集合、指标实体之间的关联关系集合和所述指标属于指标类目关系集合,构建城市体检指标知识图谱。2.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤s21具体为:s211:所述指标实体集合中的各项指标实体的属性包括:指标名称属性、数值大小属性和数值单位属性,将所述指标实体的指标名称属性值分为n=6个分类进行标注;s212:对标注后的指标实体的指标名称属性值进行深度学习训练和模型调优,获得训练好的指标名称分类模型;s213:去除所述训练好的指标名称分类模型的顶层softmax层,对所述指标实体集合中各指标实体的指标名称进行推理,获得第一分类向量=[x
i1, x
i2
……
x
in
],其中i表示指标实体的编号,x
ij
表示指标实体是第j分类的概率,j为[1,n]之间的整数,n表示分类的总数;s214:获取所述第一分类向量中的最大项,将所述最大项x
ij
对应的j的分类记作第一分类,将所述第一分类向量和第一分类保存至指标实体的属性中;s215:将n设置为23,重复步骤s211-s214,获得所述第二分类向量和第二分类,将所述第二分类向量和第二分类保存至指标实体的属性中。3.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤s22具体为:s221:所述指标类目实体集合记为m(item),包含的指标类目实体个数为n(item),选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的所有指标实体及该指标实体的第一分类向量;s222:将所述第一分类向量按行排列为矩阵a,表达式为:其中,m表示指标实体的总数,n表示分类的总数,x
mn
表示指标实体m是第n分类的概率,表示指标实体m的第一分类向量;
s223:将该指标类目实体的第一向量记为,表达式为:其中,k表示指标实体的编号的计数;s224:将步骤s221-s223共迭代n(item)次,获取所述指标类目实体集合的所有第一向量;s225:选取某一指标类目实体,通过所述指标属于指标类目关系,获取属于该指标类目实体的指标实体及该指标实体的第二分类向量,重复步骤s222-s224,获取所述指标类目实体集合的所有第二向量。4.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤s23具体为:s231:计算各所述第二向量间的余弦相似度,共执行次余弦相似度计算,获得个指标类目实体之间的第二相似度;s232:对于所述第二相似度大于预设阈值k1的两个指标类目实体,计算两者的第一向量间的余弦相似度作为第一相似度,对于所述第一相似度大于预设阈值k2的两个指标类目实体进行合并,完成所述第二次融合。5.根据权利要求1所述的城市体检指标知识图谱构建方法,其特征在于,步骤s3具体为:s31:将所述指标实体集合记为m(indicator),包含的指标实体的数量记为n(indicator),计算各所述指标实体之间的关联强度;s32:通过所述关联强度获取关联指标对集合m(pair)’;s33:对所述关联指标对集合m(pair)’进行简化,获得简化后的关联指标对集合m(pair);s34:通过所述简化后的关联指标对集合m(pair)建立各所述指标实体之间的关联关系。6.根据权利要求5所述的城市体检指标知识图谱构建方法,其特征在于,步骤s31具体为:s311:对于编号为x和y的两个指标实体,通过深度学习模型获取指标实体x和指标实体y的指标名称语义相似度;获得指标实体x的第一分类向量和第二分类向量,以及指标实体y的第一分类向量和第二分类向量;s312:若指标实体x与指标实体y具有相同的第二分类向量,则指标分类相似度为1;若指标实体x和指标实体y的第二分类向量不同,但第一分类向量相同,则指标分类相似度为0.5;若指标实体x和指标实体y的第一分类向量和第二分类向量均不同,则指标分类相似度为0;s313:将指标实体x的数值大小属性值记为val(x),将指标实体y的数值大小属性值记
为val(y),x与y的指标数值大小相似度的计算公式如下:s314:建立中英文映射表,将指标实体x和指标实体y的数值单位属性值转换为中文,将所述转换为中文的数值单位标记为领域,若指标实体x的数值单位和指标实体y的数值单位属于同一领域,则指标数值单位相似度为指标实体x和指标实体y的转换为中文的数值单位间的字符相似度;否则指标数值单位相似度为0;s315:计算获得所述关联强度,计算公式如下:关联强度s(x,y) = a*指标名称语义相似度+b*指标分类相似度+c*指标数值大小相似度+d*指标数值单位相似度其中,a、b、c和d均为预设的权重,a+b+c+d=1,且a,b,c,d∈(0,1)。7.根据权利要求5所述的城市体检指标知识图谱构建方法,其特征在于,步骤s32具体为:s321:将关联指标对集合记为m(pair)’,m(pair)’为若干个指标实体集合m(indicator)的子集的集合,将m(pair)’中包含的m(indicator)的子集个数记作n(m(pair)’);令指标实体的编号为z,z的初始值为1,将第z项指标实体记为mz,mz∈m(indicator);s322:若z的值小于n(indicator)则进入步骤s323,否则输出关联指标对集合m(pair)’;s323:计算mz与m(z+1)~m(n(indicator))之间的关联强度,将其中关联强度大于预设阈值k3的指标实体作为mz的关联指标集合,记作m(pair)’mz
,将关联指标集合m(pair)’mz
存储至m(pair)’中;令z=z+1并返回步骤s322。8.根据权利要求5所述的城市体检指标知识图谱构建方法,其特征在于,步骤s33具体为s331:令指标实体的编号z的初始值为1;关联指标对集合m(pair)’中包含的m(indicator)的子集个数为n(m(pair)’);s332:若z的值小于或等于n(m(pair)’)则进入步骤s333,否则输出简化后的关联指标对集合m(pair);s333:对于第z项指标实体,从关联指标对集合m(pair)’中获取关联指标集合m(pair)’mz
,若m(pair)’mz
为空则令z=z+1并返回步骤s332;若m(pair)’mz
不为空则进入步骤s334;s334:将关联指标集合m(pair)’mz
中指标实体的数量记为n(m(pair)’mz
);s335:令计数p的初始值为1;s336:若p的值小于n(m(pair)’mz
)则进入步骤s337,否则令z=z+1并返回步骤s332;s337:若m(pair)’mz
中的第p项指标实体为ms,则从m(pair)’中获取m(pair)’ms
,若m(pair)’ms
不为空则进入步骤s338;若m(pair)’ms
为空则令p=p+1并返回步骤s336;s338:如果m(pair)’mz
中的第(p+1)项~第n(m(pair)’mz
)项实体,存在于m(pair)’ms
中,则删除m(pair)’ms
中对应的指标实体,同时更新m(pair)’中的m(pair)’ms
,令p=p+1并返回步骤s336。
9.根据权利要求5所述的城市体检指标知识图谱构建方法,其特征在于,步骤s34具体为:s341:对于所述简化后的关联指标对集合m(pair),计m(pair)中m(indicator)子集的个数为n(m(pair));s342:令指标实体的编号z的初始值为1;s343:若z小于或等于n(m(pair))则进入步骤s344,否则完成建立各所述指标实体之间的关联关系;s344:从m(pair)中获取简化后的关联指标集合m(pair)
mz
,若m(pair)
mz
非空则进入步骤s345,否则令z=z+1并返回步骤s343;s345:将指标实体mz插入到m(pair)
mz
的最前面,对更新后的m(pair)
mz
中的各指标实体,依次按顺序在两个相邻指标实体之间建立关联关系,为所述关联关系添加关联强度属性,所述关联强度属性的值为相邻两个指标实体间的关联强度的值,令z=z+1并返回步骤s343。10.一种城市体检指标知识图谱构建系统,其特征在于,包括:第一次融合模块,用于获取城市体检指标数据,抽取所述城市体检指标数据中的知识三元组,对所述知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;第二次融合模块,用于对所述指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;关联关系构建模块,用于建立所述指标实体集合中,各指标实体之间的关联关系;城市体检指标知识图谱构建模块,用于通过所述指标实体集合、所述融合后的指标类目实体集合、指标实体之间的关联关系集合和所述指标属于指标类目关系集合,构建城市体检指标知识图谱。

技术总结
本发明涉及知识图谱领域,提供一种城市体检指标知识图谱构建方法及系统,包括:对知识三元组进行第一次融合,获得指标实体集合、指标类目实体集合和指标属于指标类目关系集合;对指标类目实体集合进行第二次融合,获得融合后的指标类目实体集合;建立指标实体集合中,各指标实体之间的关联关系;通过指标实体集合、融合后的指标类目实体集合、指标实体之间的关联关系集合和指标属于指标类目关系集合,构建城市体检指标知识图谱。本发明通过图结构存储城市体检指标,提高了城市体检指标检索效率,便于指标推荐,有助于城市体检工作开展;通过对关联指标对集合的简化,去除了指标实体间的冗余关系,极大提高图数据库关系搜索效率。极大提高图数据库关系搜索效率。极大提高图数据库关系搜索效率。


技术研发人员:李颖 陈胜鹏 刘高
受保护的技术使用者:武大吉奥信息技术有限公司
技术研发日:2021.12.07
技术公布日:2022/1/6
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1