一种知识生成方法、知识生成装置、设备以及存储介质与流程

文档序号:37367115发布日期:2024-03-22 10:20阅读:7来源:国知局
一种知识生成方法、知识生成装置、设备以及存储介质与流程

本申请涉及知识图谱,特别是涉及一种知识生成方法、知识生成装置、设备以及存储介质。


背景技术:

1、知识挖掘指的是从现有的相关数据中,挖掘有价值信息。例如,从临床医学文献、病例报告、电子病历以及其他相关数据中,挖掘与临床用药相关的有价值信息,如药物相互作用、不良反应、疗法优化等。

2、传统的研究方法很大程度上依赖人工,随着数据的不断增加,传统的研究方法效率较低,已无法满足大规模、高效的知识挖掘需求。


技术实现思路

1、本申请至少提供一种知识生成方法、知识生成装置、设备以及存储介质。

2、本申请提供了一种知识生成方法,包括:对若干待识别数据进行实体识别,得到识别结果,其中,识别结果包括若干实体;基于实体在待识别数据中的共现情况,在若干实体之间建立关联关系;基于若干实体和实体之间的关联关系,对实体构成的实体对进行筛选,得到至少一个目标实体对,以作为目标知识。

3、其中,基于实体在待识别数据中的共现情况,在若干实体之间建立关联关系包括:在从同一待识别数据识别出的任意两实体之间建立关联关系。

4、其中,在从同一待识别数据识别出的任意两实体之间建立关联关系包括:将实体作为节点,在从同一待识别数据中识别得到的任意两节点之间建立连接边以作为关联关系;其中,节点和连接边构成目标图结构。

5、其中,待识别数据包括存在对应关系的第一子数据和第二子数据;若干实体包括第一类实体和第二类实体;对若干待识别数据进行实体识别,得到若干实体包括:对第一子数据进行实体识别得到第一类实体,以及对第二子数据进行实体识别得到第二类实体;其中,关联关系包括第一类型关联关系、第二类型关联关系和第三类型关联关系,第一类型关联关系连接两第一类实体,第二类型关联关系连接两第二类实体,第三类型关联关系连接一第一类实体和一第二类实体。

6、其中,第一子数据为病历数据,第一类实体为临床表现类实体;第二子数据为处方数据,第二类实体为药品类实体。

7、其中,基于若干实体和实体之间的关联关系,对实体构成的实体对进行筛选,得到至少一个目标实体对,以作为目标知识包括:基于若干实体和实体之间的关联关系,获取至少一个候选实体对中各实体的实体表示,以及各候选实体对对应的权重;基于实体表示和权重对各候选实体对进行打分,得到各候选实体对的第一评分结果;基于第一评分结果对至少一个候选实体对进行筛选,得到至少一个目标实体对。

8、其中,实体作为节点,关联关系为节点之间的连接边,实体和连接边构成目标图结构;基于若干实体和实体之间的关联关系,获取至少一个候选实体对中各实体的实体表示,以及各候选实体对对应的权重包括:获取各节点的初始的实体表示;以及,基于关联实体对在待识别数据中的共现参数,获取对应的连接边的初始的权重,关联实体对中两实体之间存在关联关系,共现参数基于包含关联实体对中两实体的待识别数据数量得到;在初始的实体表示和初始的权重的基础上,基于目标图结构,对实体表示和权重进行更新,得到各节点的实体表示以及各连接边对应的权重。

9、其中,基于目标图结构,对实体表示和权重进行更新,得到各节点的实体表示以及各连接边对应的权重包括:分别将每个节点作为目标节点,基于目标节点的实体表示、目标节点的邻居节点实体表示、目标节点和邻居节点之间的连接边的权重,更新目标节点的实体表示;利用打分函数,基于更新后的实体表示和权重,对样本实体对进行打分,得到各样本实体对的第二评分结果,其中,样本实体对由识别得到的两实体构成,第二评分结果为对样本实体对之间是否存在连接边的预测结果;基于目标图结构中存在的连接边与各样本实体对的第二评分结果得到损失参数;基于损失参数更新实体表示、权重和打分函数中的至少一者。

10、其中,基于实体表示和权重对各候选实体对进行打分,得到各候选实体对的第一评分结果包括:利用更新后的打分函数,基于实体对的实体表示和权重对候选实体对打分,得到各候选实体对的第一评分结果。

11、其中,该方法还包括:为各目标实体对检索关联的参考数据,筛除未检索到参考数据的目标实体对;其中,为各目标实体对检索关联的参考数据,获取各节点的初始的实体表示,对若干待识别数据进行实体识别的步骤中至少一者利用大语言模型实现。

12、其中,识别结果还包括实体的属性,获取各节点的初始的实体表示包括:利用大语言模型,基于实体和实体的属性获取节点初始的实体表示。

13、其中,若干实体包括第一类实体和第二类实体,候选实体对包含一第一类实体和一第二类实体。

14、其中,连接边包括若干类型,不同类型的连接边连接的实体类别不同;基于关联实体对在待识别数据中的共现参数,获取对应的连接边的初始的权重包括:基于第一权重参数、第二权重参数、共现参数获取连接边的初始的权重,其中,不同类型的连接边对应的第一权重参数相同,不同类型的连接边对应的第二权重参数不同。

15、其中,实体构成的实体对包括非关联实体对,非关联实体对中的两实体之间不存在关联关系;至少一个候选实体对包括非关联实体对;基于若干实体和实体之间的关联关系,获取至少一个候选实体对中各实体的实体表示,以及各候选实体对对应的权重还包括:确定非关联实体对应的权重为预设值。

16、其中,该方法还包括:将目标实体对发送至目标终端,以使目标终端对目标实体对进行审核,以及获取经审核的目标实体对。

17、其中,该方法还包括:将目标实体对作为目标知识,加入目标知识图谱,其中,若干待识别数据中至少包括来自目标知识图谱的待识别数据。

18、本申请提供了一种知识生成装置,包括识别模块、关联模块和筛选模块,识别模块用于对若干待识别数据进行实体识别,得到识别结果,其中,识别结果包括若干实体;关联模块用于基于实体在待识别数据中的共现情况,在若干实体之间建立关联关系;筛选模块用于基于若干实体和实体之间的关联关系,对实体构成的实体对进行筛选,得到至少一个目标实体对,以作为目标知识。

19、本申请提供了一种电子设备,包括存储器和处理器,存储器上存储有程序指令,程序指令被处理器执行时实现任一项中的知识生成方法。

20、本申请提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一项中的知识生成方法。

21、上述方案中,设备能够从待识别数据中识别得到实体,并根据实体在数据中的共现情况,自动建立实体之间的关联关系,构成实体-关系-实体,在此基础上再对实体对进行筛选以作为目标知识,减少人工参与,提高知识挖掘效率。

22、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。



技术特征:

1.一种知识生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述实体在所述待识别数据中的共现情况,在所述若干实体之间建立关联关系包括:

3.根据权利要求2所述的方法,其特征在于,所述在从同一所述待识别数据识别出的任意两所述实体之间建立关联关系包括:

4.根据权利要求2所述的方法,其特征在于,所述待识别数据包括存在对应关系的第一子数据和第二子数据;所述若干实体包括第一类实体和第二类实体;所述对若干待识别数据进行实体识别,得到识别结果包括:

5.根据权利要求4所述的方法,其特征在于,所述第一子数据为病历数据,所述第一类实体为临床表现类实体;所述第二子数据为处方数据,所述第二类实体为药品类实体。

6.根据权利要求1所述的方法,其特征在于,所述基于所述若干实体和所述实体之间的关联关系,对所述实体构成的实体对进行筛选,得到至少一个目标实体对,以作为目标知识包括:

7.根据权利要求6所述的方法,其特征在于,所述实体作为节点,所述关联关系为所述节点之间的连接边,所述实体和所述连接边构成目标图结构;

8.根据权利要求7所述的方法,其特征在于,所述基于所述目标图结构,对所述实体表示和所述权重进行更新,得到各所述节点的实体表示以及各所述连接边对应的权重包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述实体表示和所述权重对各所述候选实体对进行打分,得到各所述候选实体对的第一评分结果包括:

10.根据权利要求7所述的方法,其特征在于,所述方法还包括:

11.根据权利要求7所述的方法,其特征在于,所述若干实体包括第一类实体和第二类实体,所述候选实体对包含一所述第一类实体和一所述第二类实体;和/或,

12.根据权利要求6所述的方法,其特征在于,所述实体构成的实体对包括非关联实体对,所述非关联实体对中的两所述实体之间不存在关联关系;所述至少一个候选实体对包括所述非关联实体对;所述基于所述若干实体和所述实体之间的关联关系,获取至少一个候选实体对中各所述实体的实体表示,以及各所述候选实体对对应的权重还包括:

13.根据权利要求1所述的方法,其特征在于,所述方法还包括:

14.一种知识生成装置,其特征在于,包括:

15.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有程序指令,所述程序指令被所述处理器执行时实现上述权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现上述权利要求1至13中任一项所述的方法。


技术总结
本申请公开了一种知识生成方法、知识生成装置、设备以及存储介质,知识生成方法包括:对若干待识别数据进行实体识别,得到识别结果,其中,识别结果包括若干实体;基于实体在待识别数据中的共现情况,在若干实体之间建立关联关系;基于若干实体和实体之间的关联关系,对实体构成的实体对进行筛选,得到至少一个目标实体对,以作为目标知识。上述方案,能够提高知识挖掘效率。

技术研发人员:刘雅婧,胡加学,贺志阳,赵景鹤,鹿晓亮,王士进,魏思,胡国平
受保护的技术使用者:讯飞医疗科技股份有限公司
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1