本发明涉及知识图谱,特别是涉及一种基于大语言模型的中医知识图谱构建方法。
背景技术:
1、知识图谱可以理解成是由很多知识点和它们之间的关系连接构成的语义网络,也可以简单的将一个知识图谱理解成一个“多关系图”,即图中包含多种类型的节点和多种类型的边。在知识图谱里,通常用“实体”来表达图里的节点,即现实世界中的事物,用“关系”来表达图里的边,即不同事物之间的某种联系,实体和关系也通常拥有各自的属性。
2、命名实体识别指从特定文本中识别和提取具有特定含义的实体,通常包括判断实体边界和确定实体类别或属性两个任务。在命名实体识别的工作中,主要分为基于规则的方法、基于统计模型的方法、基于神经网络的方法和基于预训练模型的方法。基于规则的方法使用预定义的规则和模式来识别实体。例如,可以使用正则表达式匹配具有特定模式的字符串作为实体。这种方法的优点是简单直观,但需要手动编写规则并难以覆盖所有情况。基于统计模型的方法使用机器学习算法,如条件随机场(conditional random fields,crf)和隐马尔可夫模型(hidden markov models,hmm),来进行命名实体识别。统计模型通过学习从输入文本到输出标签(实体类别)的映射关系来识别实体。这种方法能够考虑上下文信息和特征之间的关系,但是需要大量的标注数据用于训练模型。
技术实现思路
1、本发明所要解决的技术问题是提供一种基于大语言模型的中医知识图谱构建方法,能够高效构建准确的中医知识图谱。
2、本发明解决其技术问题所采用的技术方案是:提供一种基于大语言模型的中医知识图谱构建方法,包括以下步骤:
3、获取中医数据文本,对所述中医数据文本进行预处理获得知识数据库;
4、利用大语言模型提取所述知识数据库中的命名实体,以及所述命名实体间的实体关系;
5、根据所述命名实体间的相似度对所述命名实体进行融合;
6、构建包括融合后的所述命名实体和所述实体关系的关系三元组并生成中医知识图谱。
7、进一步的,所述利用大语言模型提取所述知识数据库中的命名实体,包括:
8、设置所述大语言模型为专注语言结构分析;
9、对于任一实体类型,利用所述大语言模型遍历所述知识数据库提取所述命名实体;
10、重复上一步骤,直到获得全部所述实体类型的所述命名实体。
11、进一步的,所述实体类型包括“疾病”,“症状”,“药物”,“方药”,“饮食”,“器官”,“治则治法”,以及“病因病机”。
12、进一步的,所述利用大语言模型提取所述命名实体间的实体关系,包括:
13、获取所述命名实体的主客体类型;
14、对于任意两个所述命名实体,利用所述大语言模型根据所述主客体类型和所述实体类型提取当前所述命名实体间的关联度,将所述关联度与实体关系类型进行比对获得所述实体关系。
15、进一步的,所述主客体类型是根据提取顺序来确定的。
16、进一步的,所述实体关系类型包括“表现”,“类别”,“治疗”,“服用”,“组成”,“食疗”,“诱发”,以及“涉及”。
17、进一步的,所述关系三元组包括命名实体主体,命名实体客体,所述命名实体主体和所述命名实体客体间的所述实体关系。
18、进一步的,所述中医知识图谱通过以下方法生成:
19、以所述命名实体主体作为头节点,以所述命名实体客体作为尾节点,生成包含所述命名实体主体和所述命名实体客体间的所述实体关系的从头节点指向尾节点的关系连线。
20、进一步的,所述利用大语言模型提取所述知识数据库中的命名实体的步骤和所述生成中医知识图谱的步骤之间,还包括获取所述命名实体的属性值构建实体属性三元组,以及获取所述实体关系的属性值构建关系属性三元组的步骤,所述实体属性三元组包括所述命名实体、所述实体属性类型和所述命名实体的属性值,所述关系属性三元组包括所述实体关系、所述实体关系属性类型和所述实体关系的属性值。
21、进一步的,在生成所述中医知识图谱时,还包括根据所述实体属性三元组在所述中医知识图谱中相应的头节点或尾节点加入属性标示,以及根据所述关系属性三元组在所述中医知识图谱中相应的关系连线加入属性标示的步骤。
22、进一步的,所述命名实体间的相似度通过以下方法获取:
23、从中医病证分类与诊疗术语相关知识文本中提取中医同义词词对构建同义词词典;
24、对于任意两个命名实体,在所述同义词词典中搜索所述命名实体,如果有匹配的同义词词对则认为所述命名实体是相似的。
25、有益效果
26、由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明利用大语言模型提取中医数据知识库中的命名实体以及命名实体间的实体关系,构建关系三元组,并根据命名实体间的相似度进行知识融合,最终根据融合后的关系三元组生成中医知识图谱,克服了手工构建中医知识图谱造成大量人力消耗以及使用少量数据训练模型以机器学习的方式进行命名实体识别导致的准确度低的问题。
1.一种基于大语言模型的中医知识图谱构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述利用大语言模型提取所述知识数据库中的命名实体,包括:
3.根据权利要求2所述的方法,其特征在于,所述实体类型包括“疾病”,“症状”,“药物”,“方药”,“饮食”,“器官”,“治则治法”,以及“病因病机”。
4.根据权利要求2所述的方法,其特征在于,所述利用大语言模型提取所述命名实体间的实体关系,包括:
5.根据权利要求4所述的方法,其特征在于,所述主客体类型是根据提取顺序来确定的。
6.根据权利要求4所述的方法,其特征在于,所述实体关系类型包括“表现”,“类别”,“治疗”,“服用”,“组成”,“食疗”,“诱发”,以及“涉及”。
7.根据权利要求4所述的方法,其特征在于,所述关系三元组包括命名实体主体,命名实体客体,所述命名实体主体和所述命名实体客体间的所述实体关系。
8.根据权利要求7所述的方法,其特征在于,所述中医知识图谱通过以下方法生成:
9.根据权利要求1所述的方法,其特征在于,所述命名实体间的相似度通过以下方法获取: