一种基于语义解析的中药领域知识图谱问答方法

文档序号:36329166发布日期:2023-12-10 00:49阅读:43来源:国知局
一种基于语义解析的中药领域知识图谱问答方法

本发明属于自然语言处理领域,尤其涉及一种基于语义解析的中药领域知识图谱问答方法。


背景技术:

1、中药作为中医防治疾病的主要武器,从古至今救治、服务于诸多人民。近年来国家大力弘扬中医药文化,而实现中医药文化的继承和发展,就需要揭开其发展的物质基础——中药的神秘面纱。但是,大多的中药知识都以文本描述的形式存储于中医典籍中,具有知识单一化、碎片化的问题,很难满足普通大众直接便捷获取多样化知识的需求。问答系统通过理解用户输入的自然语言问句,快速返回确切答案的特点可以有效解决这一问题,近年来知识图谱作为问答系统的知识支撑,更是推动了问答系统的发展,二问答系统的有效运行就需要构造有效的知识问答方法。

2、基于知识图谱的问答方法主要有两类:基于语义解析和基于信息检索的方法。其中,基于语义解析的方法通过各种方法或模型将自然语言问句转换成能够在知识图谱中查询的查询语句,通过执行该查询语句检索答案;基于信息检索的方法主要通过特征工程将问题和答案转换为特征向量表示,通过打分函数得到问句与答案的匹配概率,对答案进行排序得到答案。其中,基于语义解析的问答方法由于其准确率高是目前最为常见的知识问答方法。

3、基于语义解析的知识图谱问答方法通过命名实体识别、实体链接、问句分类、答案检索等步骤获得最终的答案,一般采用基于规则、关键词匹配的传统方法,该方法虽然准确性高,但是需要人工成本较大,或是利用深度学习方法对问答任务进行性能改进,尤其是将深度学习方法应用在实体识别、问句分类环节上,而该种方法大都只对某一个环节的性能进行提升,因此整个问答过程的性能还存在很大的上升空间。


技术实现思路

1、本发明的目的在于提出一种基于语义解析的中药领域知识图谱问答方法,针对垂直领域知识问答模型训练语料缺失的问题,实现适配度、智能化程度、准确度更高的基于知识图谱的中药领域问答方法。

2、为实现上述目的,本发明提供了一种基于语义解析的中药领域知识图谱问答方法,包括以下步骤:

3、构建多模态中药知识图谱;

4、结合所述多模态中药知识图谱,构建中药领域专属问句语料库;

5、基于所述中药领域专属问句语料库中的问句意图类别,获取cypher查询语句和口语化回答模板,并构建问句意图-cypher查询语句和问句意图-回答模板对应表;

6、对问句进行语义解析,获取问句实体和问句意图分类结果;

7、基于所述问句实体和所述问句意图分类结果,进行所述多模态中药知识图谱的答案查询,获得最终答案,实现基于语义解析的中药领域知识图谱问答。

8、可选的,构建所述多模态中药知识图谱包括:

9、获取中药知识数据,对所述中药知识数据进行清洗,所述中药知识数据包括中药描述数据、药方数据和中药对应照片;

10、对中药领域知识进行调研,并结合清洗后的中药知识数据进行分析,构建本体概念层,所述本体概念层用于描述所述多模态中药知识图谱的数据模式;

11、采用基于规则的方法,提取所述中药描述数据中的实体;

12、利用基于深度学习的方法,提取所述药方数据中的实体。

13、可选的,所述中药领域知识包括实体,并定义实体关系;

14、所述实体包括中药、地域、功效、类别、病症、药方、书籍和方剂,且以所述中药和所述药方为中心发散;

15、所述实体关系包括主治病症、中药功能、中药分布地域、中药从属类别、药方治疗疾病、中药基础药方、药方来源书籍、方剂包含药方。

16、可选的,采用基于规则的方法,提取所述中药描述数据中的实体包括:

17、对所述中药描述数据进行分析,所述中药描述数据包括中药的性味归经、产地分布、功效与作用和临床应用,所述药描述数据的数据类型为半结构化数据;

18、对所述半结构化数据进行分析,获取所述半结构化数据的分割符号或分割文字;

19、基于所述半结构化数据的分割符号或分割文字对所述中药描述数据进行分割,提取所述中药描述数据中的实体。

20、可选的,利用基于深度学习的方法,提取所述药方数据中的实体包括:

21、采用融合注意力机制的albert-bigru-crf模型进行药方文本命名实体识别,所述albert-bigru-crf模型包括albert层、bigru层、attention层和crf层;

22、将所述药方文本输入albert层进行词嵌入,获取字符的动态向量;

23、将所述字符的动态向量输入所述bigru层学习获得所述字符的特征向量;

24、利用所述attention层对所述字符的动态向量和所述字符的特征向量进行加权,并输入所述crf层进行矫正,获取最终预测序列标签序列;

25、基于所述最终预测序列标签序列提取所述药方数据中的实体。

26、可选的,结合所述多模态中药知识图谱,构建所述中药领域专属问句语料库包括:

27、对所述多模态中药知识图谱进行分析,并结合目标问题类型将问句意图进行划分,获取若干类问题,并确定每类问题的标签,所述多模态中药知识图谱的分析内容包括实体、关系和属性;

28、将所述实体、所述关系和所述属性作为问句语料生成的内容基础,并通过人工标注和规则,构建问句种子语料;

29、利用同义替换、句式重构和实体词替换的方法对所述问句种子语料进行数据增强,构建所述中药领域专属问句语料库。

30、可选的,基于所述中药领域专属问句语料库中的问句意图类别,获取所述cypher查询语句和所述口语化回答模板,并构建所述问句意图-cypher查询语句和问句意图-回答模板对应表包括:

31、基于所述中药领域专属问句语料库,获取所述中药领域专属问句语料库中的问句意图;

32、根据所述问句意图类别编写对应的cypher查询语句,获取所述cypher查询语句;

33、根据所述问句意图类别编写对应的口语化回答模板,获取所述口语化回答模板;

34、基于所述cypher查询语句和所述口语化回答模板,构建所述问句意图-cypher查询语句和问句意图-回答模板对应表。

35、可选的,对所述问句进行语义解析,获取问句实体和问句意图分类结果包括:

36、利用hanlp自然语言工具进行硬匹配,获取所述问句实体;

37、若匹配不到,则利用所述融合注意力机制的albert-bigru-crf模型对所述问句进行命名实体识别,获取问句实体提及;

38、实体链接将所述问句实体提及映射到所述多模态中药知识图谱中,采用实体相似度计算结合重叠词个数的方法,获取所述问句实体;

39、利用基于ernie的双通道特征融合问句意图识别模型进行问句意图识别,获取所述问句意图分类结果。

40、可选的,实体链接利用所述问句实体提及映射到所述多模态中药知识图谱中,采用实体相似度计算结合重叠词个数的方法,获取所述问句实体包括:

41、基于sentence-bert计算所述问句实体提及和图谱实体的相似度,并与相似度阈值进行对比;

42、若所述相似度不大于所述相似度阈值,则所述实体连接失败;

43、若所述相似度大于所述相似度阈值,则与重叠词进行比较,获取所述问句实体。

44、可选的,利用所述基于ernie的双通道特征融合问句意图识别模型进行问句意图识别,获取所述问句意图分类结果包括:

45、所述基于ernie的双特征融合问句意图识别模型包括输入层、嵌入层、特征提取层、特征融合层以及输出层;

46、所述中药领域专属问句语料库中的语料文本经过所述输入层进行预处理,获取处理后的文本句向量;

47、将所述文本句向量输入所述嵌入层,获取文本数据语义信息;

48、将所述文本数据语义信息输入所述特征提取层,利用改进的dpcnn和结合注意力机制的bigru,获取问句类别特征和上下文信息特征;

49、将所述问句类别特征和所述上下文信息特征输入所述特征融合层进行融合,获取融合后的特征向量;

50、将所述融合后的特征向量输入softmax分类器,获取所述问句意图分类结果。

51、可选的,基于所述问句实体和所述问句意图分类结果,进行所述多模态中药知识图谱的答案查询,获得所述最终答案包括:

52、通过所述问句实体和问句意图分类结果利用所述问句意图-cypher查询语句和问句意图-回答模板对应表,选择对应的所述cypher查询语句和所述口语化回答模板;

53、利用所述问句实体对所述cypher查询语句进行填充,并在所述多模态中药知识图谱中进行答案查询,获取查询结果,即所述最终答案。

54、本发明具有以下有益效果:

55、本发明首先通过对图谱的分析结合生活实际构造领域专属问句语料库,针对现存基于语义解析的知识图谱问答方法,多采用基于模板匹配、利用深度学习方法改进语义解析某一环节性能的局限性,使深度学习模型能够更加适配于知识图谱对应领域;本发明利用深度学习方法结合传统规则的混合方法着重对问句解析的关键环节:问句实体识别和问句意图识别进行了改进和提升,达到中药领域知识的快速精确回答,减少人工操作,提高了整个语义解析过程的智能化、自动化水平和回答的准确程度,使其效能达到最大化;本发明实现了适配度、智能化程度、准确度更高的基于知识图谱的中药领域问答方法,实现了中药知识的普及和传播。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1